ChatGPT
Nem minden mesterséges intelligencia által generált hangot használnak rosszindulatú célokra. Nagy nyelvi modellekkel működtetett chatbotokba is beépítik őket, hogy sokkal természetesebb és meggyőzőbb módon tudjanak válaszolni és beszélgetni. A ChatGPT hangfunkciója például már képes válaszolni a hangszín variálásával és bizonyos szavak hangsúlyozásával, nagyon hasonló módon, mint ahogyan egy ember tenné, hogy empátiát és érzelmeket közvetítsen. Emellett képes nem verbális jeleket, például sóhajokat és zokogást is érzékelni, 50 nyelven beszélni, és képes az akcentusokat spontán visszaadni. Még telefonhívásokat is képes kezdeményezni a felhasználók nevében, hogy segítsen a feladatok elvégzésében. Az OpenAI egyik bemutatóján a rendszer epret rendelt egy árustól.
Ezek a képességek felvetnek egy érdekes kérdést: van-e az emberi hangban bármi olyan egyedi, ami segít megkülönböztetni azt a robotbeszédtől?
Digitális beszédfeldolgozás
Jonathan Harrington, a Müncheni Egyetem fonetika és digitális beszédfeldolgozás professzora évtizedeken át tanulmányozta az emberi beszéd, a szavak hangzásának és az akcentusnak a bonyolultságát. Még őt is lenyűgözték a mesterséges intelligenciával működő hangszintetizátorok képességei.
„Az elmúlt 50 évben, és különösen az utóbbi időben a beszédgeneráló/szintetizáló rendszerek olyannyira jól sikerültek, hogy gyakran nagyon nehéz megkülönböztetni egy mesterséges intelligencia által generált és egy valódi hangot” - mondja. Úgy véli azonban, hogy még mindig van néhány fontos jel, amely segíthet nekünk megkülönböztetni, hogy emberrel vagy mesterséges intelligenciával beszélünk-e.