VALL-E: Νέο σύστημα ΑΙ μετετρέπει γραπτό κείμενο σε ομιλία

VALL-E: Νέο σύστημα ΑΙ μετετρέπει γραπτό κείμενο σε ομιλία

Ένα νέο πρωτοποριακό σύστημα τεχνητής νοημοσύνης παρουσίασε η Microsoft, διευρύνοντας ακόμη περισσότερο τα όρια του συγκεκριμένου τομέα. Πιο αναλυτικά, η εταιρεία παρουσίασε το VALL-E, ένα καινοτόμο μοντέλο μετατροπής κειμένου σε ομιλία, με δυνατότητες που εντυπωσιάζουν.

Πώς λειτουργεί ο αλγόριθμος

Πώς γίνεται όμως μια τέτοια ,παράξενη για πολλούς, μετατροπή; Ας το πάρουμε από την αρχή. Η νέα τεχνολογία αρχικά ηχογραφεί τη φωνή του ομιλητή για περίπου 3 δευτερόλεπτα, ώστε να μπορεί στη συνέχεια να αναπαράγει τόσο τη χροιά του και τον συναισθηματικό τόνο, όσο και την ακουστική του δωματίου.

Το επαναστατικό αυτό γλωσσικό μοντέλο βασίζεται σε ένα νευρωνικό δίκτυο της Meta για ζητήματα τεχνητής νοημοσύνης, γνωστό ως compression Encodec. Ουσιαστικά, ο ρόλος του συγκεκριμένου εργαλείου είναι να δημιουργεί ήχο με βάση το γραπτό κείμενο που εισάγεται κάθε φορά αλλά και τα δείγματα του ομιλητή. Θα μπορούσαμε να πούμε ότι είναι κάτι σαν διαβιβαστής με λίγα λόγια.

Οι 60.000 ώρες διδασκαλίας και τα πειράματα

Εκτός από τη διαδικασία μετατροπής του κειμένου σε ομιλία, εξίσου εντυπωσιακή είναι και η «διδασκαλία» του VALL-E. Για να μπορέσει δηλαδή να δημιουργήσει προφορικό λόγο, χρειάστηκαν 60.000 ώρες αγγλικής ομιλίας από περισσότερους από 7.000 διαφορετικούς ομιλητές στην ηχητική βιβλιοθήκη LibriLight της Meta.

Με άλλα λόγια, απαραίτητη προϋπόθεση για μιμηθεί το VALL-E επιτυχώς την επιθυμητή φωνή που έχει ηχογραφήσει, πρέπει να μοιάζει αρκετά με μια από αυτές που περιέχεται στο σύνολο δεδομένων εκπαίδευσης του. Με αυτόν τον τρόπο η αναπαράσταση της φωνής στην ανάγνωση ενός κειμένου είναι ακόμη πιο ρεαλιστική.

Έπειτα από πειράματα που έχουν πραγματοποιηθεί, τα αποτελέσματα ήταν αρκετά ενθαρρυντικά αφού τις περισσότερες φορές η τελική απόδοση της φωνής ήταν αρκετά φυσική. Το εν λόγω σύστημα AI, όχι μόνο μιμείται με αξιοσημείωτη ακρίβεια τη χροιά του ομιλητή, αλλά έχει τη δυνατότητα να αναπαράγει και το ακουστικό περιβάλλον του δείγματος ήχου.

Για παράδειγμα, αν κάποιος θέλει να αναπαράγει το κείμενο από μια τηλεφωνική συνομιλία, το τελικό αποτέλεσμα, η μίμηση της φωνής του ομιλητή δηλαδή, είναι τόσο αληθοφανές που θα νομίζετε πως ακούτε κάποιον άνθρωπο να μιλάει στο τηλέφωνο! Μάλιστα, το VALL-E μπορεί να δημιουργεί και ποικιλία από διαφορετικούς τόνους φωνής, που προσδίδουν ακόμη μεγαλύτερη φυσικότητα.

Ο κίνδυνος παραπλανητικής χρήσης

Αξίζει να σημειώσουμε ότι η Microsoft ενισχύει συνεχώς το συγκεκριμένο σύστημα με δεδομένα εκπαίδευσης προκειμένου να βελτιώσει την ικανότητα του να μιμείται με ακρίβεια το ύφος της ομιλίας, την χροιά του ομιλητή, τον τόνο της φωνής του κ.α. Εκτός αυτού, εξειδικευμένες ομάδες ερευνούν τρόπους ώστε να μειωθούν οι λέξεις που δεν αναγνωρίζονται ή δεν αποκρυπτογραφούνται, για ένα όσο το δυνατόν κοντά στην πραγματικότητα τελικό αποτέλεσμα.

Τέλος, η Microsoft δεν παράλειψε να αναφερθεί και στους κινδύνους που ενδεχομένως να προκύψουν από τη χρήση αυτού του συστήματος, που θα μπορούσε να γίνει αντικείμενο κατάχρησης για παρανομίες, όπως η προσποίηση της φωνής κάποιου άλλου ή η πλαστή αναγνώριση ταυτότητας.

Για να πάρετε μια γεύση από το VALL-E πατήστε εδώ.

 

ARTIFICIAL INTELLIGENCE,VALL-E,MICROSOFT,

Σχόλια

ΠΑΡΑΚΑΛΩ ΠΕΡΙΜΕΝΕΤΕ. ΦΟΡΤΩΝΟΝΤΑΙ ΠΕΡΙΣΣΟΤΕΡΑ...

Home