Ko umetna inteligenca spregovori

Sintetizatorji govora so na svetu prisotni že vrsto let. Ljudem, ki zaradi različnih bolezni ne morejo več govoriti, jim lahko sintetizator govora povrne vsaj malo samostojnosti. Najbolj znan primer je seveda Stephen Hawking. Sintetizatorji govora pa so uporabljeni tudi pri Applovih napravah v obliki sistemske pomočnice Siri, ki pomaga uporabniku, odgovarja na vprašanja in opravlja nekatere naloge.

Ob koncu preteklega meseca je Google objavil zanimiv članek na temo implementacije umetne inteligence v sintetizator govora. Izdelali so namreč sistem Tacotron 2, ki s skoraj človeško natančnostjo iz teksta ustvari človeški govor. Sinteza govora je bila zmeraj težavna naloga za nevronske mreže, a zdi se, da je najnovejši pristop končno obrodil sadove tudi na tem področju.

Tacatron 2 je pravi dosežek na tem področju, saj sestoji iz kar dveh neodvisnih nevronskih mrež. Prva skrbi za to, da besedilo spremeni v spektogram (tj. grafična ponazoritev spektra frekvenc zvoka), medtem ko druga nevronska mreža WaweNet podjetja DeepMind skrbi za interpretacijo grafa in generira prilegajoč zvok oziroma govor. Sistem deluje namreč tako, da testna oseba govori, nevronska mreža se pa uči in išče vzorce. Sistem se tako lahko prilagaja, saj je cilj umetne inteligence ravno, da za določene naloge ne rabi biti eksplicitno sprogramirana, ampak se lahko prilagodi in »improvizira«, čeprav mora izgovoriti besedo, ki jo testna oseba nikoli ni izgovorila.

Spektogram Vir: https://upload.wikimedia.org/wikipedia/commons/8/81/THX-DeepNote-Spectogram.png

Ali lahko razločite med človeškim govorom in umetno ustvarjenim govorom?

Googlovi raziskovalci so na ta način uspeli doseči, da lahko sistem pravilno izgovori tudi težko izgovorljive besede, medtem ko jih naglasi glede na ustrezna ločila ali posebne elemente, ki še posebej poudarijo določene besede. Če se v besedilu na primer nahajajo besede z velikimi tiskanimi črkami, jih sistem prepozna in med izgovorjavo poudari.

Sistem ima še vedno nekatere pomanjkljivosti, saj je na primer natreniran samo za en ženski glas, če pa bi želeli oponašati določeni moški glas, pa bi bilo treba znova naučiti celotno nevronsko mrežo. Kljub pomanjkljivostim pa je ta dosežek velik korak na področju umetne inteligence in bliža se čas, ko bo govor robotov postal vsaj toliko prepričljiv kot človeški.

Vir: Futurism, Quartz

Komentarji
Žan Magerl

Žan Magerl

Poleg tega, da je splošno izjemno razgledan, je tudi človek, ki vsaki stvari želi priti do dna, ugotoviti kako kaj deluje, zakaj je takšno kot je in ali bi to lahko izboljšali. To pomeni, da se bo čisto spustil v stvar, ki mu je trenutno padla v oči, in ne bo nehal, dokler ne ugotovi vsega, kar je za ugotoviti o določeni temi.
Verjetno bi ga lahko z eno besedo povzeli kot radovednega.
Žan Magerl

Latest posts by Žan Magerl (see all)

Žan Magerl

Poleg tega, da je splošno izjemno razgledan, je tudi človek, ki vsaki stvari želi priti do dna, ugotoviti kako kaj deluje, zakaj je takšno kot je in ali bi to lahko izboljšali. To pomeni, da se bo čisto spustil v stvar, ki mu je trenutno padla v oči, in ne bo nehal, dokler ne ugotovi vsega, kar je za ugotoviti o določeni temi. Verjetno bi ga lahko z eno besedo povzeli kot radovednega.

3 misli o “Ko umetna inteligenca spregovori

Komentarji so onemogočeni.