Používate OCR programy? Na týchto veciach si dajte záležať.

Lukáš Slovák Ciferník24.02.2020 Pre prekladateľov Čas čítania: 3 min.
ako správne používať OCR programy

S požiadavkou na preklad needitovateľného dokumentu, napr. vo formáte PDF, JPG, PNG či dokonca textu v papierovej podobe, sa stretol asi každý prekladateľ. Našťastie dnes existujú programy, ktoré aj v týchto prípadoch dokážu pomôcť a prácu zjednodušiť.

Hovoríme o OCR programoch, čiže programoch na optické rozpoznávanie znakov (z angl. optical character recognition). OCR program je dobrý sluha, ale iba vtedy, ak s ním viete správne narábať. Ako docieliť, aby sa z programu nestal zlý pán? Na to sa pozrieme v dnešnom článku.

Na čo sú vlastne OCR programy dobré?

Program na rozpoznávanie znakov alebo skrátene OCR program slúži na prevedenie textu a iného obsahu do editovateľnej, čiže upraviteľnej podoby.

Pozrime sa na príklad z praxe: klient vám poskytol naskenovaný návod na obsluhu vo formáte PDF (v editovateľnej podobe ho, žiaľ, nemá). Tento návod obsahuje nekopírovateľný text, tabuľky aj obrázky. Už na prvý pohľad je v ňom veľa čísel a opakovaní. Radi by ste teda pri preklade využili CAT nástroj a neprekladali prepisom z PDF do Wordu. Bolo by to zdĺhavé a mohli by ste sa niekde pomýliť či časť textu nechtiac úplne vynechať. Siahnete teda po OCR programe. Ten automaticky rozpozná, ktorá časť strany obsahuje text, kde je tabuľka, kde zase obrázok, a výsledok vám prevedie napríklad do súboru docx pre MS Word a dokonca ho aj „naformátuje“. Skvelé, však? Áno aj nie...

Výstup nikdy nebude stopercentný

Po otvorení súboru vo Worde často zistíte, že text je rozhádzaný, program doň vložil nadbytočné zlomy sekcií a stĺpce, namiesto súvislého textu je plný textových polí, obrázky sú nesprávne orezané a aj samotný text obsahuje nejaké „čudné“ znaky (ako napr. na obrázku vľavo). Čo ďalej?

Výstup z OCR programu – porovnanieNesprávne naformátovaný výstup z OCR programu (vľavo) vs. správne naformátovaný výstup (vpravo)

 

Dôležité je uvedomiť si, že automatický výstup z OCR programu nebude nikdy stopercentný. Na správnu prípravu treba dbať, ešte pred prevedením do Wordu. Programu musíte trochu pomôcť a definovať, čo je tabuľka (ak ju program nesprávne označil), čo je súvislý text, kde je obrázok a tak ďalej.

Myslite aj na kvalitu podkladov – ak je sken niekde rozmazaný, program nerozpozná text správne (napr. namiesto slova „Brat“ program vloží „8rat“), môžu chýbať interpunkčné znamienka, písmená, niekedy aj celé slová. Mnoho OCR programov preto umožňuje aj kontrolu pravopisu.

V zásade platí, že čím komplikovanejší je dokument, tým viac času musíte venovať nastaveniu samotného OCR procesu. Investovaný čas sa vám na konci zaručene vráti.

Úpravy po prevedení do Word dokumentu

Aj keď ste s výstupom vo Worde relatívne spokojní, vaša práca tu ešte nekončí. Hoci to môže znieť kontraproduktívne, vo väčšine prípadov odporúčame hneď po otvorení výstupu vo Worde vymazať formátovanie. To hlavné, teda všetok text, čísla či tabuľky ostanú zachované, zmaže sa len ich formát. Ten prispôsobíte originálnemu dokumentu presne podľa požiadaviek klienta. Odporúčame sa zamerať na nasledovné parametre.

Začnite všeobecnými nastaveniami

Pred tým, než sa pustíte do úprav fontu a veľkosti odrážok, nastavte si základné veci, akými sú okraje, veľkosť strán a sekcie. Určite sa vám už niekedy stalo, že vymazanie nechcenej sekcie zrazu posunulo text o 4 strany dopredu, pridalo nový stĺpec a vymazalo (z neznámych dôvodov) každý tretí obrázok.

V jednoduchosti je krása

Obmedzte počet sekcií, manuálne číselné zoznamy nahraďte automatickými (to platí aj pre obsah a automatické štýly nadpisov). Nezabudnite ani na hlavičky a päty v dokumente.

Myslite ako CAT nástroj

Prispôsobte text prekladaniu. Ak si nedáte záležať na príprave a do CAT nástroja naimportujete neupravený súbor, po preklade sa môže stať, že sa celý dokument jednoducho rozpadne, text sa nebude zobrazovať na správnych miestach (ak vôbec) a následnými úpravami strávite omnoho viac času, ako ste plánovali.

Nezabudnite na správne rozdelenie slovných a číselných údajov a namiesto viacnásobných tabulátorov použite tzv. skryté tabuľky. Tento postup vám umožní v CAT nástroji napríklad správne rozdeliť odseky alebo predpreložiť čísla (čo program dokáže väčšinou len vtedy, ak sú údaje dobre „nasegmentované“, teda oddelené od súvislého textu).

Rovnako sa radšej vyhnite textovým poliam. Tie sú dvojsečnou zbraňou. Na jednej strane pomocou nich viete presne umiestniť text v rámci strany, no na druhej strane nie sú flexibilné – ak je preklad dlhší, ako bol zdrojový text, je nutné textové polia po preklade a exportovaní z CAT programu nazad do Wordu skontrolovať a „ponaťahovať“ ich, aby sa do nich preložený text zmestil.

Áno, formátovanie je hotová veda, no ovládať by ju mal každý prekladateľ. S trochou cviku budete po pár desiatkach spracovaných dokumentov formátovať lepšie než akýkoľvek OCR program.

Aký program zvoliť?

OCR programy sa líšia možnosťami spracovania, rýchlosťou rozpoznávania, typom licencie (prenájom/licencia natrvalo) a zároveň existujú offline a online verzie. Pri online verziách a rôznych OCR službách zdarma si ale dajte pozor na osobné dáta a citlivé dokumenty. Z platených offline programov odporúčame napríklad ABBYY Finereader.

Zaujíma vás téma OCR a chceli by ste sa dozvedieť viac? Dajte nám o tom vedieť.

Lukáš Slovák
Lukáš Slovák
Project manager

V LEXIKE som svoju kariéru začal v roku 2016 ako asistent projektových manažérov a s prestávkami na pracovno-jazykové pobyty v USA a Taliansku som postupne dokončil štúdium prekladateľstva a tlmočníctva v kombinácii angličtina-taliančina. Následne som prešiel na pozíciu projektového manažéra. Prekladaniu a prekladom som sa aktívnejšie venoval od roku 2014, momentálne však na ne neostáva priestor, tak si radšej prečítam dobre preloženú (či nepreloženú) knihu. Moje pozadie mi umožňuje detailne spracovať a riadiť projekty a vyhovieť i netradičným požiadavkám našich klientov. S prekladateľmi sa rád pozhováram aj na/o niektorej z „jazykových“ rovín.

Čítaj viac

Páči sa vám čo píšeme?
Povedzte to ďalej!

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *