AI HA ASCOLTATO LE VOCI DELLE PERSONE. QUINDI HA GENERATO I LORO VOLTI.

Send

Hai mai costruito un'immagine mentale di una persona che non hai mai visto, basandosi esclusivamente sulla loro voce? L'intelligenza artificiale (AI) ora può farlo, generando un'immagine digitale del volto di una persona usando solo una breve clip audio come riferimento.

Nominata Speech2Face, la rete neurale - un computer che "pensa" in un modo simile al cervello umano - è stata addestrata dagli scienziati su milioni di video educativi da Internet che hanno mostrato oltre 100.000 persone diverse che parlano.

Da questo set di dati, Speech2Face ha appreso le associazioni tra segnali vocali e alcune caratteristiche fisiche in un volto umano, i ricercatori hanno scritto in un nuovo studio. L'intelligenza artificiale ha quindi utilizzato una clip audio per modellare una faccia fotorealistica corrispondente alla voce.

I risultati sono stati pubblicati online il 23 maggio nella jounral arXiv prestampata e non sono stati sottoposti a revisione paritaria.

Per fortuna, l'IA non (ancora) sa esattamente come appare un individuo specifico in base alla sua sola voce. La rete neurale ha riconosciuto alcuni marcatori nel discorso che indicavano sesso, età ed etnia, caratteristiche condivise da molte persone, hanno riferito gli autori dello studio.

"In quanto tale, il modello produrrà solo volti dall'aspetto mediocre", hanno scritto gli scienziati. "Non produrrà immagini di individui specifici."

L'intelligenza artificiale ha già dimostrato che può produrre volti umani incredibilmente precisi, sebbene le sue interpretazioni dei gatti siano francamente un po 'terrificanti.

I volti generati da Speech2Face - tutti rivolti in avanti e con espressioni neutre - non corrispondevano esattamente alle persone dietro le voci. Ma le immagini di solito catturano le fasce d'età, le etnie e i sessi degli individui corretti, secondo lo studio.

Tuttavia, le interpretazioni dell'algoritmo erano tutt'altro che perfette. Speech2Face ha dimostrato "prestazioni miste" di fronte a variazioni linguistiche. Ad esempio, quando l'IA ha ascoltato una clip audio di un uomo asiatico che parla cinese, il programma ha prodotto un'immagine di una faccia asiatica. Tuttavia, quando lo stesso uomo parlava in inglese in una clip audio diversa, l'intelligenza artificiale ha generato il volto di un uomo bianco, hanno riferito gli scienziati.

L'algoritmo mostrava anche una distorsione di genere, associando voci acute con volti maschili e voci acute con volti femminili. E poiché il set di dati di formazione rappresenta solo video educativi di YouTube, "non rappresenta allo stesso modo l'intera popolazione mondiale", hanno scritto i ricercatori.

Un'altra preoccupazione per questo set di dati video è emersa quando una persona che era apparsa in un video di YouTube è stata sorpresa di apprendere che la sua somiglianza era stata incorporata nello studio, ha riferito Slate. Nick Sullivan, capo della crittografia con la compagnia di sicurezza di Internet Cloudflare a San Francisco, ha inaspettatamente notato la sua faccia come uno degli esempi usati per addestrare Speech2Face (e che l'algoritmo aveva riprodotto piuttosto approssimativamente).

Sullivan non aveva acconsentito ad apparire nello studio, ma i video di YouTube in questo set di dati sono ampiamente considerati disponibili per i ricercatori da utilizzare senza acquisire autorizzazioni aggiuntive, secondo Slate.

Send