Průkopník ze Sovětského svazu
Věřte nebo ne, historie tohoto odvětví se začíná psát už v roce 1933. Tehdy sovětský vědec Peter Troyanskii v Akademii věd SSSR představuje stroj, který zvládá tisknout jednotlivé věty a zároveň je překládat. Přístroj se skládal z kartiček ve čtyřech různých jazycích, psacího stroje a kamery. Trojice těchto součástek stačila k tomu, aby vynález dokázal rozeznat vložený text a vrátit správný výstup.
Zajímavostí budiž fakt, že kromě samotných slovních spojení obsahovaly kartičky i jejich charakteristiky. Kamera tak díky nim mohla rozeznat, zda-li se jedná o podstatné jméno, sloveso či výraz v množném čísle.
Vláda překladač nepotřebuje
Pokud se na tento vynález podíváme očima moderního člověka, mávneme nad ním rukou a řekneme si, že šlo o zbytečnost. A to samé si mysleli i špičky Sovětského svazu, které považovali Troyanského práci za něco, co nemůžou nikdy využít. I přes toto stanovisko pracoval vědec na svém stroji usilovně dál, a to až do své smrti v roce 1950.
I přes jeho tvrdou práci přichází výraznější průlom až zpoza Atlantiku. Politické špičky i firmy se stále spoléhají na překlad od člověka z masa a kostí. Dnes již proslulá počítačová společnost ovšem větří příležitost a chce předvést světu, že tento zažitý stereotyp by se mohl brzy změnit.
Je 7. leden 1954 a právě začíná Georgetownský experiment, akce, která má přilákat pozornost politiků i široké veřejnosti. Experiment, který má ukázat, že strojový překlad má budoucnost. Stroj umí přeložit 250 slov a poradí si i s jednoduchou gramatikou. To názorně ukazuje na 60 ruských větách, jež hravě přeloží do angličtiny. Noviny byly u vytržení. Odstartoval tak závod, do něhož se zapojily všechny ekonomické špičky tehdejšího světa.
Slovníky jsou budoucnost, nikoliv stroje
Následuje dlouhé období, během něhož se vědci předhánějí v tom, kdo vytvoří lepší koncept. IBM jim vlilo naději do žil, brzy ale přichází vystřízlivění. Výrazný posun kupředu nepřichází, což vyústí v roce 1966 prohlášením, že strojový překlad nemá budoucnost. Podle výboru ALPAC (uskupení sedmi vědců zaměřujících se na strojový překlad) je totiž příliš drahý, nepřesný a příslib zlepšení do budoucna je mizivý. Proto doporučují, aby se raději všichni soustředili na zlepšování kvality slovníků. Vývoj v USA se tak na téměř půl století zastavil, ve světě ale směle pokračoval dál.
Prvotní období, které je datováno od 70. let 20. století, nazýváme RBMT (Rule-based machine translation – strojový překlad založený na pravidlech). Jak už jeho název napovídá, překlad byl založen na dvoujazyčném slovníku a balíčku lingvistických pravidel, výjimek v podobě slov končících na určité koncovky atp.
Tvrdé začátky
V první vlně je využíváno přímého překladu, tedy slova po slově. Jeho kvalita ale nebyla dobrá, takže se hledalo nové řešení. Další vlna se tak zaměřila nejprve na rozbor struktury samotné věty a následně na samotný překlad. Na papíře to znělo výborně, realita ale byla tvrdá. Výstup pořád nebyl dostatečně kvalitní, i když vyžadoval mnohem větší databázi konstrukcí v porovnání se svým předchůdcem. Vědci tedy přichází s novým postupem, který je rozdělen na tři kroky:
- Vstup v podobě věty, kterou je potřeba přeložit
- Univerzální strojový jazyk
- Výstup v podobě přeložené věty
Když se nad tím zamyslíme, jedná se o geniální řešení. Univerzální strojový jazyk je totiž možné přeložit do jakéhokoliv lidského jazyka. Tedy alespoň v teoretické rovině. Najít řešení v reálném světě bylo pro vědce nadlidským úkolem, někteří mu ovšem obětovali svůj život. Ač tento model nefungoval, jejich snaha nebyla marná. Podobného principu se totiž dnes využívá dál. O tom si však povíme později.
Myšlenka RBMT je velice jednoduchá a pro kvalitní překlad nepoužitelná. Vychytat všechny mouchy, zbavit se duplicit a nespočtu dalších problémů by zabralo tisíce hodin práce. Bylo tedy nezbytně nutné vymyslet něco nového.
Naděje z Japonska
I když Japonsko mělo velkou motivaci na strojovém překladu pracovat. Svět se totiž otevíral a v zemi vycházejícího slunce zjistili, že jejich obyvatelé neumí anglicky. Začaly se tedy hledat způsoby, jak dát každému obyvateli možnost dorozumět se i bez znalosti jazyka. A Makoto Nagao našel zajímavé řešení.
Svůj princip překladu založený na příkladech (EBMT) představil v roce 1984 na Kjótské univerzitě. Předchozí stroje neustále překládaly ty samé fráze dokola, Nagaa proto napadlo, že by si je mohly ukládat a v případě nutnosti je využít znovu. Pokud by tedy uživatel chtěl přeložit podobnou větu, která už je uchována v databázi, využilo by se právě těchto znalostí.
Pojďme si to ukázat na příkladu. Řekněme, že byste chtěli přeložit větu “I’m going to the cinema“ (jdu do kina) a v databázi by se nacházela věta “I’m going to the theater“ (jdu do divadla). Přístroj by porovnal dva vzorky a zjistil by, že se liší pouze v posledním slově. To by tedy vyhledal ve slovníku.
Kvalita překladu roste
Devadesátky jsou v plném proudu. Evropa se zbavuje otěží komunistických režimů a svět má poprvé možnost spatřit nejefektivnější techniku strojového překladu. Ta využívá rostoucího výkonu počítačů a nechává je samostatně analyzovat útržky textu. V laboratořích IBM mu jsou předloženy miliony identických vět ve dvou odlišných jazycích. Vtip je v tom, že se mu snaží ukázat, jak by měl překládat slova, která jsou na první pohled stejná, ale využívají se pokaždé v jiném kontextu.
Největším novinkou je ale fakt, že poprvé není použit žádný slovník či sada pravidel. Stroj se tedy musí naučit všechno sám, zanalyzovat předložené texty a po měsících tvrdého výcviku ukázat, že tato cesta je opravdu tou správnou.
Analýza jednotlivých slov
Ačkoliv jde o úplně jinou techniku, ocitáme se na úplném začátku. Vědci začínají krmit počítač spoustou textu, a ten je analyzuje slovo po slově. Nejprve nebere v potaz jejich posloupnost, to se ale brzy změní. Ve druhé fázi se tak počítač snaží zapamatovat i jejich pozici, což vyústí v mnohem lepší kvalitu překladu. Stále je ale co vylepšovat.
Na řadu tedy přicházejí další tři fáze, které mají za úkol vybrousit strojový překlad v leštěný diamant. Po předchozích dvou krocích se totiž ve finálním výstupu začínají objevovat slova, která by jinak dávala smysl, v daném kontextu tam však nemají co dělat. Třetí krok je odstraní a během čtvrtého dojde k opětovnému přerovnání slov. Pátý pak má za úkol odstranit poslední chybičky a předložit uživateli kvalitní překlad.
Ani tato metoda však stále nepřinesla výsledek podobný tomu od profesionálních překladatelů. Cíl byl ale blízko. I proto se upouští od analýzy jednotlivých slov a začíná se pracovat s frázemi.
Krůček od kvalitního překladu
Jde o princip, který byl ještě nedávno používán největšími hráči na trhu jako je Google či Bing. Tento postup nejenže posunul kvalitu o stupínek výš, ale také se dokázal učit z textů, které nebyly přesně přeloženy. To umožnilo využití o poznání většího množství textů, což vyústilo i ve větší počet jazyků, do nichž bylo možné překládat.
O další posun se na přelomu století pokusila další metoda, která spočívala v rozbití věty do stromu, přeložení její syntaxe do jiného jazyka a poté i samotných slov. Myšlenka to byla dobrá, ale její převedení do virtuální světa se příliš nepovedlo. A když se začala hlásit o slovo umělá inteligence, všechny šance na její přežití ztroskotaly.
Neuronové sítě jako budoucnost překladů
Vytvořit most přes propastnou díru mezi strojovým překladem a tím lidským. S tímto cílem oznámil v roce 2016 Google vývoj neuronové sítě pro zlepšení kvality překladu. Umělá inteligence udělala velký skok, už dlouho se využívala k rozpoznávání obrázků či řeči, na poli překladů se ale jejího vysokého potenciálu zatím nepodařilo využít.
GNMT (Google Neural Machine Translation) využívá vlastní obdobu strojového jazyka, kdy je nejprve daná fráze přeložena do univerzální podoby a následně jsou hledány alternativy. Na základě výpočtů poté vzniká výstup, který známe právě z Google Překladače.
Během posledních několika let se podařilo neuronové sítě vylepšit natolik, že některé překlady mohou soupeřit s těmi lidskými. Zejména kvalita překladu mezi světovými jazyky výrazně stoupla. Svůj podíl na tom má Deep Learning (v češtině Hluboké učení), díky němuž můžeme stroj naučit přesně to, co potřebujeme, aniž bychom mu museli předkládat například výše zmiňované slovníky a struktury vět.
V dnešní době už neuronové sítě pro překlad textů, obrázků a dokumentů využívá řada gigantů. Nejkvalitnější výstup v tuto chvíli nabízí Google Translator, k zahození ovšem není ani DeepL či Bing. Než ale stroje dotáhnou svoje lidské konkurenty, bude to ještě nějakou dobu trvat. Jak jste ale mohli zjistit v tomto článku, jsme na velmi dobré cestě.