Microsoftov sustav VALL-E nakon samo tri sekunde može uspješno imitirati glas

14. 01. 2023. 13:07

Microsoft je nedavno pokazao mogućnosti svog sustava VALL-E, koji se temelji na umjetnoj inteligenciji i može uspješno imitirati glas osobe nakon samo tri sekunde snimanja, prenosi engadget.com.

Mediji otkrivaju da VALL-E koristi jezično modeliranje i računalnu sintezu glasa te može imitirati emocije, tonove, naglasak i zvučno okruženje iz kratkog audio uzorka.

Mogućnosti sustava su otkrivene kroz nekoliko primjera, napredne računalne neuronske mreže i analiza teksta kroz jezične modele čine ga vrlo uspješnim. VALL-E je treniran kroz 60.000 sati govora oko 7.000 različitih govornika na engleskom jeziku na uzorcima s Metine otvorene audio knjižnice LibriLight.

Ovaj sustav bi u budućnosti mogao biti korišten za high-end text-to-speech aplikacije, no postoje bojazni oko neželjenog korištenja, od lažiranja sadržaja, do varanja sustava za autentifikaciju glasom i lažnog predstavljanja.

Microsoft neće omogućiti i dati dozvolu za javno korištenje sustava VALL-E, a daljnji razvoj ovog projekta će pratiti smjernice određene pravilima Microsoft AI Principals.