Η OpenAI δημιούργησε εργαλείο κλωνοποίησης φωνής

01 Απρ 2024

18:41

Φωτογραφία: Shutterstock

Η νέα τεχνολογία μπορεί να κλωνοποιήσει τη φωνή ενός ατόμου χρησιμοποιώντας μόνο ένα ηχητικό απόσπασμα 15 δευτερολέπτων από την ομιλία του

Η OpenAI ανακοίνωσε ένα νέο εργαλείο τεχνητής νοημοσύνης , που ονομάζεται “Voice Engine”, και βασίζεται στην προϋπάρχουσα τεχνολογία της text-to-speech από το 2022. Πρόκειται για μία τεχνολογία κλωνοποίησης φωνής, η οποία μπορεί να μιμηθεί με τεράστια ακρίβεια μία ανθρώπινη φωνή, αναλύοντας απλά ένα δείγμα φωνής μόλις 15 δευτερολέπτων.

Το Voice Engine αναπτύχθηκε για πρώτη φορά το 2022 και χρησιμοποιήθηκε μια αρχική έκδοση για τη λειτουργία μετατροπής κειμένου σε ομιλία που είναι ενσωματωμένη στο ChatGPT , το κορυφαίο εργαλείο AI του οργανισμού. Αλλά η δύναμή του δεν αποκαλύφθηκε ποτέ δημόσια, καθώς παρά τα πιθανά οφέλη, η κακόβουλη χρήση της τεχνολογίας αυτής μπορεί να οδηγήσει σε πολύ πειστικά deepfakes.

«Ελπίζουμε να ξεκινήσουμε έναν διάλογο για την υπεύθυνη ανάπτυξη συνθετικών φωνών και πώς η κοινωνία μπορεί να προσαρμοστεί σε αυτές τις νέες δυνατότητες», ανέφερε το OpenAI σε ανυπόγραφο blogpost. «Με βάση αυτές τις συνομιλίες και τα αποτελέσματα αυτών των δοκιμών μικρής κλίμακας, θα πάρουμε μια πιο τεκμηριωμένη απόφαση σχετικά με το εάν και πώς θα αναπτύξουμε αυτήν την τεχνολογία σε κλίμακα».

Στην ανάρτησή της, η εταιρεία μοιράστηκε παραδείγματα πραγματικών χρήσεων της τεχνολογίας από διάφορους συνεργάτες στους οποίους δόθηκε πρόσβαση σε αυτήν για να ενσωματώσουν τις δικές τους εφαρμογές και προϊόντα.

Η εταιρεία τεχνολογίας εκπαίδευσης Age of Learning το χρησιμοποιεί για να δημιουργήσει φωνητικά σενάρια, ενώ η εφαρμογή «AI visual storytelling» HeyGen προσφέρει στους χρήστες τη δυνατότητα να δημιουργούν μεταφράσεις ηχογραφημένου περιεχομένου με τρόπο που να είναι άπταιστο, αλλά να διατηρεί την προφορά και τη φωνή του αρχικού ομιλητή. Για παράδειγμα, η δημιουργία αγγλικών με ένα δείγμα ήχου από έναν Γαλλικό ομιλητή παράγει ομιλία με γαλλική προφορά.

Συγκεκριμένα, ερευνητές στο Ινστιτούτο Νευροεπιστημών Norman Prince στο Ρόουντ Άιλαντ χρησιμοποίησαν ένα κλιπ 15 δευτερολέπτων κακής ποιότητας μιας νεαρής γυναίκας που έκανε παρουσίαση σε σχολικό έργο για να «αποκαταστήσει τη φωνή» που είχε χάσει λόγω αγγειακού όγκου στον εγκέφαλο.

«Επιλέγουμε να κάνουμε προεπισκόπηση αλλά όχι ευρέως να κυκλοφορήσουμε αυτήν την τεχνολογία αυτή τη στιγμή», είπε η OpenAI, προκειμένου «να ενισχύσουμε την κοινωνική ανθεκτικότητα απέναντι στις προκλήσεις που φέρνουν όλο και πιο πειστικά μοντέλα παραγωγής». Στο άμεσο μέλλον, ανέφερε: «Ενθαρρύνουμε βήματα όπως η σταδιακή κατάργηση του φωνητικού ελέγχου ταυτότητας ως μέτρο ασφαλείας για την πρόσβαση σε τραπεζικούς λογαριασμούς και άλλες ευαίσθητες πληροφορίες».

Το OpenAI ζήτησε επίσης τη διερεύνηση «πολιτικών για την προστασία της χρήσης της φωνής των ατόμων στην τεχνητή νοημοσύνη» και «την εκπαίδευση του κοινού στην κατανόηση των δυνατοτήτων και των περιορισμών των τεχνολογιών τεχνητής νοημοσύνης, συμπεριλαμβανομένης της πιθανότητας παραπλανητικού περιεχομένου AI».

Ωστόσο, ενώ το εργαλείο του OpenAI ξεχωρίζει για την τεχνική απλότητα και τη μικρή ποσότητα πρωτότυπου ήχου που απαιτείται για τη δημιουργία ενός πειστικού κλώνου, οι ανταγωνιστές είναι ήδη διαθέσιμοι στο κοινό.

Με μόνο «λίγα λεπτά ήχου», εταιρείες όπως η ElevenLabs μπορούν να δημιουργήσουν έναν πλήρη κλώνο φωνής. Για να προσπαθήσει να μετριάσει τις βλάβες, η εταιρεία εισήγαγε μια διασφάλιση «no-go voices», που έχει σχεδιαστεί για να ανιχνεύει και να αποτρέπει τη δημιουργία κλώνων φωνής «που μιμούνται πολιτικούς υποψηφίους που συμμετέχουν ενεργά σε προεδρικές ή πρωθυπουργικές εκλογές, ξεκινώντας από εκείνους στις ΗΠΑ και το Ηνωμένο Βασίλειο".