Profesor Jan Nouza učí počítače lidskou řeč. Rozhovor se zakladatelem Laboratoře počítačového zpracování řeči

Napadlo vás někdy, jak vlastně funguje takový převod řeči na text? My v Beey k tomu používáme systém založený na technologii vyvinuté na Technické univerzitě v Liberci, se kterou již řadu let spolupracujeme. Zakladatel a původní vedoucí týmu tamější Laboratoře počítačového zpracování řeči (SpeechLab), prof. Ing. Jan Nouza, CSc., poskytl nový rozhovor pro zpravodajství iDNES.cz, ve kterém liberecký systém pro automatické rozpoznávání hlasu popisuje podrobněji. Níže si můžete přečíst část tohoto článku, kde vám pan profesor přiblíží jeho část celého procesu.

Asi si každý dovede představit, čím se obor počítačového zpracování řeči zabývá. K čemu všemu je přepis mluveného slova do textu ale užitečný? Kde všude najde uplatnění?

Používá se všude tam, kde převládá mluvená řeč a je potřeba text následně uložit či analyzovat. Třeba při diktování dokumentů anebo při monitorování rozhlasového i televizního vysílání, či zpracování rozsáhlých mluvených archivů. Například Český rozhlas má obrovský archiv od začátku vysílání v Československu a každý den přibývají další desítky hodin toho, co odvysílají jeho stanice. Díky našemu programu je možné v archivu rychle najít, o čem se kdy mluvilo, a hned si to poslechnout. Podobné archivy dnes mají call centra nebo soudy.

Jan Nouza, vysokoškolský profesor na Technické univerzitě v Liberci.
Prof. Ing. Jan Nouza, CSc.(* 25. ledna 1957 v Ústí nad Labem)
Vysokoškolský profesor na Technické univerzitě v Liberci. V roce 1995 stál za založením Laboratoře počítačového zpracování řeči na této univerzitě.

O náš systém se zajímají i bezpečnostní složky státu, které třeba potřebují identifikovat, co se děje v odposlouchávaných telefonech. Kromě toho naše technologie pomáhají i handicapovaným. Může se jednat o lidi, kteří nemohou používat na ovládání klávesnice ruce, tak vydávají povely hlasem. Mohou například říct myši, aby se pohnula, diktovat maily, vyhledávat na internetu.

Vaše technologie byly užitečné i v době pandemie. Jakým způsobem?

Hlavně v začátcích pandemie využila firma Newton Technologies náš rozpoznávač a okamžitě titulkovala pro neslyšící zprávy v televizi nebo tiskové konference, kde zaznívaly důležité informace. Podařilo se jim to spustit během několika dní, což mělo v té době opravdu velký význam.

Vím, že váš systém ovládá několik jazyků. Jak je náročné jednotlivé jazyky přidávat?

Ještě před dvaceti třiceti lety se musel pro každý jazyk zvlášť vyvíjet systém pro rozpoznávání. Postupně ale vývoj dospěl do fáze, kdy jádro systému zůstává stejné, a jen pro něj vyvíjíte to, co je pro daný jazyk specifické, to znamená slovník, jednotlivé fonémy a jazykový model. Na dalších jazycích jsme začali pracovat zhruba před patnácti lety, kdy jsme zvládli češtinu. Nejprve jsme se zaměřili na příbuzné, tedy slovanské, jazyky. Na slovenštině jsme pracovali asi dva roky. Postup jsme ale stále zefektivňovali, takže další jazyk, polština, nám trval už jen rok. Další jazyky jsme pak začali přidávat i díky spolupráci s firmou Newton Technologies, která se na nás obracela se svými požadavky. V současnosti už umíme přepisovat dvacet jazyků.

Potřebujete ke své práci rodilé mluvčí?

Dnes využívají technologie takzvané neuronové sítě, jinak řečeno strojové učení, a to je to, co dělá moderní algoritmy opravdu chytré. Nejmodernější neuronové sítě se dokonce naučí rozpoznávat slova, která nemají ve slovníku. Učí se na svých chybách, které postupně eliminují, a díky tomu rodilé mluvčí nebo lingvisty už nepotřebujeme. Co ale potřebujeme, je velké množství dat, čím více dat mají tyto algoritmy, tím lépe se učí.

Celý rozhovor redaktorky Gabriely Volné Garbové s profesorem Nouzou si můžete přečíst na stránkách iDNES.cz.

Přejít nahoru