Računar vas razume i čita sa usana
Na Fakultetu tehničkih nauka (FTN) Univerziteta u Novom Sadu usavršava se tehnologija koja kombinuje zvuk i sliku
Na Fakultetu tehničkih nauka (FTN) Univerziteta u Novom Sadu usavršava se tehnologija koja kombinuje zvuk i sliku kako bi učinila govornu komunikaciju sa korisnikom što prirodnijom. Reč je o uređaju koji vas razume i kada je buka oko vas, koji „čita“ pokrete vaših usana i odgovara glasom koji prati realistična mimika lica.
Projekat „Multimodal multilingual human-machine speech communication” (Al-Speak) iz programa Prizma, Fonda za nauku Republike Srbije, nadovezuje se na bogato iskustvo Katedre za telekomunikacije i obradu signala FTN-a, čiji su prethodni sistemi govornih tehnologija već našli primenu širom regiona. Sada idu korak dalje prema mašinama koje vas razumeju onako kako to radi čovek Ovo je tehnologija koja može promeniti način na koji komuniciramo sa uređajima, od pametnih asistenata i sistema za učenje jezika, do medicinskih pomagala i pristupačnosti računara i interneta osobama sa različitim tipovima invaliditeta.
Projekat se završava ove godine, ukupna vrednost je blizu 300.000 evra, a projektni tim čine nastavnici i asistenti Katedre za telekomunikacije i obradu signala (Departman za energetiku, elektroniku i telekomunikacije) i Katedre za animaciju u inženjerstvu (Departman za opšte discipline u tehnici). Rukovodilac projekta je prof. dr Milan Sečujski.
– Foku s istraživanja je razvoj naprednih algoritama mašinskog učenja u oblasti audio-vizuelne govorne komunikacije između ljudi i mašina, a koriste se najsavremenije metode veštačke inteligencije. Cilj projekta je unapređenje prepoznavanja i sinteze govora na srpskom i drugim jezicima pomoću veštačke inteligencije, koristeći multimodalni pristup: kombinaciju zvuka i slike – kaže prof. dr Sečujski. – To, između ostalog, znači da će budući sistemi moći da prepoznaju govor i u bučnim okruženjima, oslanjajući se na snimke lica govornika i tehniku „čitanja sa usana“, kao i da će govor automatski proizveden od strane sistema biti praćen animiranim virtuelnim likom sa realističnim pokretima usana i ostatka lica. Da bi to postigli, istraživači iz projektnog tima kreirali su dve posebne višejezične baze podataka: audiovideo bazu snimljenu u kontrolisanom okruženju i mnogo obimniju bazu dobijenu na osnovu javno dostupnih video snimaka, koja odražava prirodnu komunikaciju u realnim uslovima. Uporedo se razvijaju algoritmi za uključivanje vizuelnih informacija u postojeće sisteme za prepoznavanje i sintezu govora na srpskom jeziku, sa ciljem da se omoguće različiti vidovi audio-vizuelne govorne komunikacije između ljudi i mašina, kao što su automatsko čitanje sa usana ili sinteza govora uz odgovarajući animirani lik govornika – objašnjava prof. dr Milan Sečujski.
Završetak studentskog takmičenja AI-Speak, sutra
•U okviru ovog projekta, sutra (25. aprila) u 10 časova, u zgradi Naučno-tehnološkog parka u Novom Sadu biće održan završni događaj studentskog takmičenja AI-Spealc, tokom kojeg će biti predstavljeni takmičarski radovi studenata, koji su imali zadatak da, primenom naprednih metoda mašinskog učenja, animiraju lik govornika sinhronizovan sa automatski generisanim govorom na srpskom jeziku. Pored proglašenja pobednika, biće prikazani i revijalni radovi iz oblasti multimodalne komunikacije čovek-mašina.
Više informacija o događaju dostupno je na: https://www.ktios.ftn.uns.ac.rs/ai-speak/AI-Speak_ challenge.html
R. D.
Objavljeno: 24. 4. 2026.
Izvor: Dnevnik -Društvo
Autor: R. D.
