Mostantól bárki hangját leutánozhatjuk, csak egy dolog kell hozzá

hirado.hu

Január. 16. 2023. Hétfő 07:48

A Microsoft új, mesterséges intelligencián alapuló kódnyelvi modellje mindössze három másodpercnyi hanganyag birtokában képes reprodukálni a beszélő hangját. Az eszköz emellett az alany érzelmi hullámzását és akár a szoba akusztikáját is élethűen adja vissza.

A VALL-E nevű, neurális kódnyelvi modellnek mindössze három másodpercnyi hanganyagra van szüksége ahhoz, hogy reprodukálja a beszélő hangját – számolt be róla a Gizomodo tudományos hírportál.

A mesterséges intelligencián alapuló eszköz nemcsak a hangszínt képes leutánozni, hanem a beszélő érzelmi hullámzását és akár a szoba akusztikáját is élethűen tudja visszaadni.

A végtermék ráadásul nagyon jó hangminőségű, és akár tízszer kisebb adatátviteli sebességre tömöríthető, érdemi minőségromlás nélkül. Az eszközt 60 ezer órányi angol nyelvű szöveggel tanították be, ami több mint 7000 különböző embertől származott.

Az eszköz jelenleg az angol nyelvű beszéd reprodukciójára korlátozódik, teljesítménye pedig még nem hibátlan.

Mivel a mesterséges intelligencia megőrzi a beszélő személyazonosságát, kockázatot jelent, ugyanis fennáll a hamisítás veszélye. Ezért már egy olyan felismerési modell is fejlesztés alatt áll, amely megkülönbözteti, hogy a hangfájl a VALL-E által lett-e szintetizálva, vagy sem.

#hang #mesterséges intelligencia