/ +421 2 5010 6700 Po – Pi: 8.00 – 18.00 hod.

Moderné nástroje strojového prekladu

Lenka Masárová Ciferník07.10.2014 Obláčik0 Novinky
Klávesy zboku

 V predchádzajúcom článku sme sa stručne oboznámili s históriou strojového prekladu a jeho základnými druhmi. V tomto článku zase nájdete prehľad moderných nástrojov strojového prekladu a informácie o ich vzniku, využití, fungovaní, ale i o málo známych faktoch. 

 

SYSTRAN: Systran Enterprise Server 7

 

 

Jedným z prvých a v mnohých ohľadoch priekopníckych nástrojov strojového prekladu je práve Systran. Spoločnosť Systran založil v roku 1968 maďarský vedec Peter Toma a jej vznik je úzko spätý s Georgetown – IBM experimentom. Ako jeden z mála nástrojov ustál krízu financovania strojového prekladu po správe ALPAC-u v roku 1966.

Úlohou spoločnosti, ktorá vyvíjala Systran, bolo počas Studenej vojny zabezpečiť strojový preklad z ruštiny do angličtiny pre letectvo Spojených štátov amerických. Neskôr spoločnosť pracovala na rôznych projektoch pre Ministerstvo obrany USA a Európsku komisiu. Systran poskytoval technológiu aj komerčným nástrojom, ako je napr. Yahoo! Babel Fish, ale aj Google Translate (do roku 2007).

Systran pracuje s 52 jazykovými kombináciami (vrátane slovenčiny a češtiny), najčastejšie v kombinácii s angličtinou a francúzštinou. Kompletný zoznam jazykových párov nájdete tu.

Zaujímavosťou je, že spoločnosť Systran ročne investuje až 20 % ziskov do vývoja a výskumu a aj vďaka tomu je v mnohých ohľadoch vo svete strojového prekladu priekopníkom. Systran bol totiž prvým softvérom, ktorý spojil štatistickú metódu s pravidlovou a vytvoril tak hybridný strojový preklad. Bol takisto prvým prekladovým softvérom pre mobilné zariadenia, súbory formátov XML, XBRL a počítačové hry a zároveň prvým online riešením pre internetové portály a webstránky. Zoznam ďalších prvenstiev spoločnosti Systran nájdete tu.

 

GOOGLE: Google Translate

 

Hádam najznámejším strojovým prekladačom je Google Translate. Okrem jazykových kombinácií s ruštinou, arabčinou a čínštinou využíval do roku 2007 technológiu Systran (viď vyššie). Neskôr Google implementoval vlastnú technológiu založenú na štatistickej metóde strojového prekladu. Takáto metóda si vyžadovala vytvorenie bilingválneho korpusu s obsahom viac ako milión slov a dva monolingválne korpusy s obsahom viac ako miliardu slov. Google na tento účel použil texty v šiestich úradných jazykoch OSN. Na základe týchto údajov vyhľadával opakujúce sa „vzorce“ v textoch, ktoré preložili prekladatelia, a pri preklade nového textu sa snažil odhadnúť jeho pravdepodobné znenie. V súčasnosti Google Translate funguje na rovnakom princípe, no databáza textov je oveľa väčšia a neustále exponenciálne rastie. Počet pracovných jazykov sa dokonca zvýšil na 80.

Pozrite si krátke video, ktoré zrozumiteľnou formu opisuje fungovanie Google Translate.

Výsledky strojového prekladu nie sú vždy dokonalé, pre prekladateľskú prax sú dokonca často nepoužiteľné, no primárnou úlohou Google Translate je umožniť čitateľovi porozumieť základný obsah cudzojazyčného textu. Situáciu komplikuje fakt, že v súčasnosti nie je možné vybrať si vednú, resp. terminologickú oblasť, čo je pri strojovom preklade rozhodujúce.

Vylepšiť výsledky prekladu je možné úpravou jazykovej kombinácie. Google Translate vytvorí presnejší preklad, ak je cieľovým jazykom angličtina a zdrojovým jazykom jeden z úradných jazykov EÚ (napr. francúzština, taliančina).

Jednou z najväčších prekážok je pre strojový preklad samotná štruktúra a sémantika jazykov. Každý jazyk obsahuje homonymá, idiomatické a obrazné výrazy, ktoré komplikujú preklad, pretože v cieľovom jazyku sú ekvivalenty takýchto fráz motivované rovnako alebo podobne len veľmi zriedkavo. Google navyše neprekladá vždy priamo z východiskového jazyka do jazyka cieľového (L1 → L2), ale v niektorých prípadoch najprv do medzijazyka (angličtiny) a následne do cieľového jazyka (L1 → EN → L2). Keďže angličtina v počte homoným výrazne vyniká, môže pri preklade dôjsť k zmene významu alebo formulovaniu nezrozumiteľnej výpovede.

Zdroj: https://ufal.mff.cuni.cz/books/preview/bojar_2012_preview.pdf

 

Mnoho ďalších príkladov a užitočných informácií nájdete v tejto publikácii.

 

Preklad nasledujúcich jazykov je ešte zložitejší – sú prekladané najprv do jazyka, ktorý je im „podobný“, no rozšírenejší, následne do angličtiny a až potom do želaného cieľového jazyka. Táto metóda sa uplatňuje aj pri slovenčine.

 

Bieloruština (be ↔ ru ↔ en ↔ cieľový jazyk).

Katalánčina (ca ↔ es ↔ en ↔ cieľový jazyk).

Galíjčina (gl ↔ pt ↔ en ↔ cieľový jazyk).

Haitská kreolština (ht ↔ fr ↔ en ↔ cieľový jazyk).

Slovenčina (sk ↔ cs ↔ en ↔ cieľový jazyk).

Ukrajinčina (uk ↔ ru ↔ en ↔ cieľový jazyk).

Urdu (ur ↔ hi ↔ en ↔ cieľový jazyk).

 

SDL

Video: http://www.translationzone.com/video/video-industry-engines/62353/

 

Strojový preklad spoločnosti SDL na rozdiel od Google Translate predstavuje platenú komerčnú službu, ktorú si klient môže prispôsobiť vytvorením terminologických slovníkov alebo si vybrať z piatich terminologických oblastí (automobilový priemysel, elektronika, IT, prírodné vedy, cestovný ruch) na cloude. To môže v konečnom dôsledku zvýšiť kvalitu prekladu. SDL navyše ponúka strojový preklad len vo veľmi obmedzenom množstve jazykových kombinácií v porovnaní s Google Translate (zatiaľ bez slovenčiny a češtiny).

 

Automobilový priemysel z EN do: brazílska portugalčina, dánčina, francúzština, nemčina, taliančina, nórčina, portugalčina, španielčina, švédčina
Elektronika z EN do: dánčina, francúzština, taliančina, nórčina, španielčina, švédčina
IT z EN do: brazílska portugalčina, francúzština, taliančina, portugalčina, španielčina
Prírodné vedy z EN do: francúzština, nemčina, taliančina, španielčina
Cestovný ruch z EN do: arabčina, dánčina, holandčina, francúzština, nemčina, gréčtina, taliančina, nórčina, poľština, portugalčina, španielčina, švédčina, turečtina

 

V súčasnosti nejestvuje možnosť „trénovať“ nástroj s použitím vlastných dát, no klient môže vytvárať vlastné databázy a slovníky, ktoré sú chránené a nezdieľajú sa s inými používateľmi cloudu.

SDL používa na strojový preklad verejne dostupné údaje, ktoré však nikdy nepoužíva v originálnej podobe – používa ich neutrálne verzie, teda bez akýchkoľvek názvov, názvov produktov, mien, etc.

 

ASIA ONLINE

 

 

Spoločnosť Asia Online založil v roku 2007 nemecký vedec Philipp Koehn. Najväčším prínosom spoločnosti je masívny vzdelávací projekt – preklad kvánt textov z rôznych vedných oblastí z angličtiny do ázijských jazykov pomocou štatistickej metódy vyvinutej v Thajsku (so špeciálnym zameraním na ázijskú jazykovú vetvu).

V januári 2011 Asia Online spustila projekt (čiastočne financovaný spoločnosťou CAT Telecom a thajským Ministerstvom pre informačné a komunikačné technológie), ktorého cieľom bol preklad všetkých článkov na Wikipédii z anglického jazyka do thajčiny. Kvalitu prekladu zvyšoval fakt, že pri úprave strojového prekladu článkov (post-editing) bol uplatňovaný crowd sourcing (verejný komunitný prístup).

Asia Online sa však neorientuje výhradne na ázijský trh, ale podporuje aj (niekdajších) 23 úradných jazykov EÚ.

Tradičný prístup štatistickej metódy strojového prekladu sa opiera o klasický webový obsah, akým sú napríklad správy a žurnály, ktoré sú v dispozícii vo viacerých jazykoch. To je podľa koncepcie Asia Online dôvodom nízkej kvality prekladu. Práve preto sa spoločnosť spolieha na kvalitné preklady z vydavateľstiev a prekladateľských agentúr tvoriacich viacjazyčné korpusy.

Asia Online v súčasnosti podporuje 530 jazykových párov (vrátane slovenčiny a češtiny) v 15 rôznych doménach. Ďalších viac ako 200 jazykových kombinácií je vo fáze príprav.

 

 

Zdroje:

 

http://www.systransoft.com/

http://www.sdl.com/products/automated-translation/

http://translate.google.com/about/intl/en_ALL/

http://www.asiaonline.net/EN/Default.aspx

sk.wikipedia.org

https://ufal.mff.cuni.cz/books/preview/bojar_2012_preview.pdf

 

 

 

Páči sa vám čo píšeme?
Povedzte to ďalej!

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *