AI ΑΚΟΎΣΤΗΚΕ ΣΤΙΣ ΦΩΝΈΣ ΤΟΥ ΛΑΟΎ. ΣΤΗ ΣΥΝΈΧΕΙΑ, ΔΗΜΙΟΎΡΓΗΣΕ ΤΑ ΠΡΌΣΩΠΆ ΤΟΥΣ.

Send

Έχετε κατασκευάσει ποτέ μια διανοητική εικόνα ενός ατόμου που δεν έχετε δει ποτέ, με βάση μόνο τη φωνή τους; Η Τεχνητή Νοημοσύνη (AI) μπορεί τώρα να κάνει αυτό, δημιουργώντας μια ψηφιακή εικόνα του προσώπου ενός προσώπου χρησιμοποιώντας μόνο ένα σύντομο κλιπ ήχου για αναφορά.

Το όνομα Speech2Face, το νευρωνικό δίκτυο - ένας υπολογιστής που "σκέφτεται" με τρόπο παρόμοιο με τον ανθρώπινο εγκέφαλο - εκπαιδεύτηκε από επιστήμονες σε εκατομμύρια εκπαιδευτικά βίντεο από το διαδίκτυο που έδειξαν ότι πάνω από 100.000 διαφορετικοί άνθρωποι μιλούσαν.

Από αυτό το σύνολο δεδομένων, το Speech2Face έμαθε συσχετισμούς μεταξύ των φωνητικών συνθηκών και ορισμένων φυσικών χαρακτηριστικών ενός ανθρώπινου προσώπου, γράφουν οι ερευνητές σε νέα μελέτη. Το AI χρησιμοποίησε έπειτα ένα κλιπ ήχου για να μοντεψει ένα φωτορεαλιστικό πρόσωπο που ταιριάζει με τη φωνή.

Τα ευρήματα δημοσιεύτηκαν online στις 23 Μαΐου στο προγενέστερο jounral arXiv και δεν έχουν αξιολογηθεί από ομότιμους.

Ευτυχώς, το AI δεν γνωρίζει (ακριβώς) τι ακριβώς ένα συγκεκριμένο άτομο μοιάζει μόνο με τη φωνή του. Το νευρικό δίκτυο αναγνώρισε ορισμένους δείκτες στην ομιλία που επεσήμαναν το φύλο, την ηλικία και την εθνικότητα, χαρακτηριστικά που μοιράζονται πολλοί άνθρωποι, ανέφεραν οι συγγραφείς της μελέτης.

"Ως τέτοια, το μοντέλο θα παράγει μόνο πρόσωπα μέσου όρου", γράφουν οι επιστήμονες. "Δεν θα δημιουργήσει εικόνες συγκεκριμένων ατόμων".

Το AI έχει ήδη δείξει ότι μπορεί να παράγει ακανόνιστα ανθρώπινα πρόσωπα, αν και οι ερμηνείες του για τις γάτες είναι ειλικρινά λίγο τρομακτικές.

Τα πρόσωπα που δημιουργούνται από το Speech2Face - τα οποία βλέπουν μπροστά και με ουδέτερες εκφράσεις - δεν ταιριάζουν επακριβώς με τους ανθρώπους πίσω από τις φωνές. Όμως, οι εικόνες συλλάβουν συνήθως τις σωστές ηλικιακές κλίμακες, τις εθνικότητες και τα φύλα των ατόμων, σύμφωνα με τη μελέτη.

Ωστόσο, οι ερμηνείες του αλγορίθμου δεν ήταν τελείως τέλειες. Το Speech2Face παρουσίασε "μικτή απόδοση" όταν αντιμετώπιζε γλωσσικές διακυμάνσεις. Για παράδειγμα, όταν το AI ακούσει ένα κλιπ ήχου ενός ασιανού που μιλάει κινέζικα, το πρόγραμμα παράγει μια εικόνα ασιατικού προσώπου. Ωστόσο, όταν ο ίδιος μίλησε στα αγγλικά σε ένα διαφορετικό ηχητικό κλιπ, το AI δημιούργησε το πρόσωπο ενός λευκού άνδρα, ανέφεραν οι επιστήμονες.

Ο αλγόριθμος έδειξε επίσης μεροληψία του φύλου, συνδυάζοντας χαμηλές φωνές με αρσενικά πρόσωπα και ψηλές φωνές με θηλυκά πρόσωπα. Και επειδή το σύνολο δεδομένων για την εκπαίδευση αντιπροσωπεύει μόνο εκπαιδευτικά βίντεο από το YouTube, "δεν αντιπροσωπεύει εξίσου τον παγκόσμιο πληθυσμό", γράφουν οι ερευνητές.

Μια άλλη ανησυχία σχετικά με αυτό το σύνολο δεδομένων βίντεο προέκυψε όταν ένα άτομο που είχε εμφανιστεί σε ένα βίντεο στο YouTube εκπλήσσεται από το γεγονός ότι η ομοιότητά του είχε ενσωματωθεί στη μελέτη, ανέφερε ο Slate. Ο Nick Sullivan, επικεφαλής της κρυπτογραφίας με την εταιρεία ασφάλειας Cloudflare στο Σαν Φρανσίσκο, απροσδόκητα είδε το πρόσωπό του ως ένα από τα παραδείγματα που χρησιμοποιούνται για την εκπαίδευση του Speech2Face (και το οποίο ο αλγόριθμος είχε αναπαραγάγει μάλλον περίπου).

Ο Sullivan δεν είχε συναινέσει να εμφανιστεί στη μελέτη, αλλά τα βίντεο του YouTube σε αυτό το σύνολο δεδομένων θεωρούνται ευρέως ότι είναι διαθέσιμα για τους ερευνητές να χρησιμοποιούν χωρίς να αποκτήσουν πρόσθετα δικαιώματα, σύμφωνα με το Slate.

Send