Οι τελευταίες τεχνολογικές εξελίξεις στο χώρο της σύνθεσης φωνής, όπως αξιοποιούνται από τους ερευνητές του Ινστιτούτου Επεξεργασίας του Λόγου, ανοίγουν το δρόμο σε πληθώρα καινοτόμων εφαρμογών και επιδρούν καταλυτικά στην ανάπτυξη νέων, οι οποίες ήταν ως τώρα ανέφικτες, με το διαθέσιμο επίπεδο ποιότητας. Σήμερα, ως προϊόν μιας ώριμης πλέον τεχνολογίας, η συνθετική φωνή ελάχιστα απέχει από αυτή ενός φυσικού ομιλητή...

Ένα κλικ στο ποντίκι κι η οθόνη του υπολογιστή αρχίζει να «μιλάει»...

Μια γυναικεία φωνή αρχίζει να διαβάζει λέξη τη λέξη, πρόταση την πρόταση, τα κείμενα από ένα παλαιότερο αφιέρωμα του Technoλογείν, που βλέπουμε μπροστά μας. Καθαρά, σωστά, ολοκληρώνει τη μια στήλη και περνάει δίπλα, στα βιογραφικά, τις λεζάντες, τους χρήσιμους συνδέσμους.

Ένα κλικ σε δυο-τρία πλήκτρα συντόμευσης μας πηγαίνει πιο βαθιά, ανοίγοντας δεύτερη και τρίτη σελίδα& Η φωνή συνεχίζει απτόητη να διαβάζει με καθαρή, σωστή άρθρωση και εκφραστικότητα. Ούτε εγώ να ήμουν, που τα ξέρω καλά, γιατί τα έγραψα...

Ο ερευνητής του Ινστιτούτου Επεξεργασίας του Λόγου και συντονιστής της ομάδας σύνθεσης φωνής από κείμενο, Σπύρος Ράπτης, με κοιτάζει χαμογελώντας με την έκπληξή μου. Βλέπετε, η φωνή που ακούω να απαγγέλλει τα κείμενα είναι συνθετική.

Κι όμως, είναι τόσο μεγάλη η προσέγγιση, που πρέπει να προσέξεις πολύ για να καταλάβεις τη διαφορά από έναν πραγματικό εκφωνητή. Ίσως, γιατί τη φωνή που ακούμε τη «δάνεισε» ένας πραγματικός εκφωνητής, μόνο που εκείνος (ή εκείνη, στην περίπτωσή μας) είχε διαβάσει εντελώς διαφορετικά κείμενα...

image

Η απόδοση των σύγχρονων συστημάτων σύνθεσης φωνής, τρίτης πλέον γενεάς, έχει φτάσει σε ιδιαίτερα υψηλό επίπεδο φυσικότητας, σε σύγκριση με τις παλαιότερες προσπάθειες, που δεν μπορούσαν να κρύψουν τον «μηχανικό» τους χαρακτήρα. Σήμερα, μόνο ένας εξασκημένος ακροατής μπορεί πλέον να ξεχωρίσει τη συνθετική από τη φυσική φωνή.

Τρίτη (γενιά) και καλύτερη...

Η συνθετική φωνή (που εμάς μας εντυπωσίασε στην εφαρμογή των ομιλούντων ιστοτόπων, δηλαδή στην ανάγνωση του περιεχομένου ιστοσελίδων) προφανώς δεν είναι κάτι καινούριο. Ήδη από τη δεκαετία του '30 υπήρχαν μηχανές που μιλούσαν στον κινηματογράφο (ιδιαίτερα εκεί, στις ταινίες της τότε επιστημονικής φαντασίας) αλλά κι έξω από αυτόν.

Όμως, ο ήχος ήταν εντελώς μεταλλικός και η φωνή ακουγόταν λες και ο ομιλών είχε& μανταλάκι στη μύτη (που ίσως και να είχε, για να αποδοθεί καλύτερα το εφέ!) Από τότε, πολύ νερό κύλησε στο αυλάκι...

Περάσαμε μια και δυο τεχνολογικές γενιές συστημάτων σύνθεσης και τώρα πια βρισκόμαστε αισίως στην τρίτη, με την τεχνολογία να είναι αρκούντως ώριμη και να χρησιμοποιείται πλέον σε ολοένα και περισσότερες εφαρμογές, αφού τα «προϊόντα» της είναι, αν μη τι άλλο, αληθοφανή.

Η εξέλιξη της τεχνολογίας σύνθεση φωνής σε διεθνές επίπεδο

  • Πρώτο σύστημα ~1939
  • Ταχύτερη εξέλιξη στη δεκαετία '70, με την ανάπτυξη των υπολογιστών
  • Πρώτα χρήσιμα συστήματα, στα τέλη της δεκαετίας του '80
  • Ωρίμανση της τεχνολογίας στη δεκαετία του '90
  • Πρώτα δειλά βήματα στην αγορά τέλη, στα τέλη της δεκαετίας του '90
  • Ώριμη πλέον τεχνολογία, σήμερα
  • Η εξέλιξη συνεχίζεται ακόμα και πλησιάζουμε τον HAL 9000...

Στα καθ' ημάς, οι έρευνες πάνω στη σύνθεση φωνής σε ελληνική γλώσσα είχαν ξεκινήσει οργανωμένα ήδη από τις αρχές της δεκαετίας του '90, από το Ινστιτούτο Επεξεργασίας του Λόγου, που παρουσίασε το 1997 ως πρώτο προϊόν του, τον «Εκφωνητή», ο οποίος πέντε χρόνια αργότερα αναβαθμίστηκε (χρησιμοποιώντας διαφορετική τεχνολογική προσέγγιση) σε «Εκφωνητή +».

Πριν από σχεδόν δυο χρόνια, βελτιώθηκε ακόμα περισσότερο, χάρη σε μια διαφορετική τεχνολογική προσέγγιση, και καταφέρνει να δώσει ιδιαίτερα αξιόπιστα ακουστικά αποτελέσματα.

Τώρα, η σύνθεση φωνής γίνεται με τη χρήση «λογατόμων», δηλαδή στοιχειωδών φωνημάτων, που επιλέγονται με τη βοήθεια σύνθετων αλγορίθμων, από την πραγματική φωνή ενός εκφωνητή ή εκφωνήτριας, ενώ σημαντικότατο ρόλο στη φυσικότητα του αποτελέσματος παίζει πλέον και η απόδοση της προσωδίας, της μελωδικότητας και της ιδιαίτερης χροιάς με την οποία κάθε άνθρωπος «στολίζει» τη φωνή του.

Η ταυτότητα των «γενητόρων»

Το Ινστιτούτο Επεξεργασίας του Λόγου ιδρύθηκε το 1991, με έδρα την Αθήνα ως ανεξάρτητο Ινστιτούτο, και σήμερα υπάγεται στο Ερευνητικό Κέντρο «Αθηνά».

Στόχος του είναι να αποτελεί κέντρο αριστείας στη βασική και εφαρμοσμένη έρευνα σε πολλούς και ποικίλους τομείς, όπως η επεξεργασία φυσικής γλώσσας, η επεξεργασία, σύνθεση και αναγνώριση φωνής, η επεξεργασία μουσικής και ήχου, η ηλεκτρονική μάθηση και η μάθηση από απόσταση σε θέματα γλώσσας, πολιτισμού και μουσικής.

Οι κύριοι τεχνολογικοί άξονες στους οποίους κινείται η αναπτυξιακή του δραστηριότητα είναι τα ηλεκτρονικά και υπολογιστικά μονόγλωσσα και πολύγλωσσα λεξικά, τα υπολογιστικά εργαλεία μηχανικής μετάφρασης και υποβοήθησης της μεταφραστικής διαδικασίας, η επεξεργασία και ανάκτηση πολυμεσικής και πολύγλωσσης πληροφορίας, η διόρθωση λαθών σε ηλεκτρονικά κείμενα, τα αυτόνομα και ενσωματωμένα συστήματα σύνθεσης και αναγνώρισης ομιλίας, τα συστήματα υποστήριξης Ατόμων με Αναπηρία και τα συστήματα παρουσίασης και διαχείρισης πολιτιστικού περιεχομένου.

Όμως, όπως συμβαίνει συχνά στο χώρο της έρευνας, τα αποτελέσματά της μπορούν να εκφραστούν καλύτερα και να αξιοποιηθούν εμπορικά (πάγιο ζητούμενο από δεκαετίες παραμένει η σύνδεση των ερευνητικών αποτελεσμάτων με την παραγωγή) μέσα από μια εταιρία τεχνοβλαστό.

Στη συγκεκριμένη περίπτωση, αυτή ακούει στο όνομα innoetics και ιδρύθηκε το 2006 ως εταιρεία έντασης γνώσης.

Σ' αυτή συμμετέχουν ερευνητές με ειδίκευση στους τομείς της γλωσσικής επεξεργασίας, της επεξεργασίας σημάτων, των επικοινωνιών, της ρομποτικής και των τεχνολογιών γνώσης, καθώς και άλλοι συνεργάτες με σημαντική εμπειρία στη σχεδίαση και υλοποίηση καινοτόμων λύσεων.

Φυσικά, η innoetics διατηρεί στενή σχέση με τις ερευνητικές της ρίζες, επενδύοντας παράλληλα στη διάχυση των ερευνητικών αποτελεσμάτων και την αξιοποίησή τους μέσω καινοτόμων λύσεων οι οποίες μπορούν να επηρεάσουν δραστικά την καθημερινότητά μας, τον τρόπο που επικοινωνούμε, μαθαίνουμε και ψυχαγωγούμαστε.

Όπως δήλωσε στο Pathfinder ο Σπύρος Ράπτης, «η innoetics αναπτύσσει και προσφέρει πρωτοποριακά προϊόντα, υπηρεσίες και εργονομίες με στόχο την αμεσότερη και διαισθητική αλληλεπίδραση του χρήστη με το περιεχόμενο, είτε στο διαδίκτυο είτε και σε κάθε άλλο ηλεκτρονικό μέσο.

Το όραμά της είναι η βελτίωση της ποιότητας της ψυχαγωγικής εμπειρίας, η αύξηση της χρηστικότητας των εκδόσεων, η διευκόλυνση της πρόσβασης στην πληροφορία μέσω εναλλακτικών τρόπων διανομής και «κατανάλωσης» του περιεχομένου, η διευκόλυνση της καθημερινής επικοινωνίας και ενημέρωσης και η υποβοήθηση της μάθησης και της διδασκαλίας».

Πολλές οι εφαρμογές...

Η συζήτηση με τους ερευνητές του ΙΕΛ είναι αποκαλυπτική σ' ό,τι αφορά στις προοπτικές αυτής της τεχνολογίας: η επίτευξη ποιοτικής συνθετικής φωνής μπορεί να ανοίξει νέους δρόμους και να επιδράσει καταλυτικά στην ανάπτυξη νέων καινοτόμων εφαρμογών και υπηρεσιών, οι οποίες ήταν ως τώρα ανέφικτες, με το επίπεδο ποιότητας που είχαμε στη διάθεσή μας.

Κι αυτό γιατί η φωνή είναι βασικό υποστηρικτικό εργαλείο στην υποκατάσταση της γραπτής ή γενικότερα οπτικής πληροφορία, για ειδικές ομάδες ατόμων όπως τα άτομα με προβλήματα όρασης (τυφλοί ή μερικώς βλέποντες), οι ηλικιωμένοι, οι δυσλεξικοί, τα άτομα που δυσκολεύονται να χειριστούν έντυπα μέσα, εκείνα που δε γνωρίζουν επαρκώς τη γλώσσα μας (π.χ. μετανάστες) και όχι μόνο...

Η τεχνολογία σύνθεσης φωνής από κείμενο μπορεί, επομένως, να αποτελέσει τη βάση για ένα πλήθος υπηρεσιών που αφορούν δυνητικά κάθε άνθρωπο. Για παράδειγμα, μπορεί να δώσει λύση σε περιπτώσεις προσωρινής «ανικανότητας» χρησιμοποίησης οπτικής πληροφορίας, όπως συμβαίνει όταν κάποιος οδηγεί.

Για άλλους, πάλι, η ακουστική πληροφορία είναι μερικές φορές πιο λειτουργική απ' ό,τι η οπτική (πχ για εκφώνηση ειδησεογραφικών άρθρων, αντί για ανάγνωση από την οθόνη και προσήλωση μπροστά στον υπολογιστή).

Μπορεί, επίσης, να λειτουργήσει συμπληρωματικά με άλλα μέσα, σαν κανάλι πληροφορίας παράλληλο με το οπτικό, αλλά και για τον εμπλουτισμό της αλληλεπίδρασης με την πληροφορία.

...και ευοίωνο το μέλλον!

Ο στόχος των αναπτυξιακών προσπαθειών της ερευνητικής ομάδας ακούγεται ιδιαίτερα φιλόδοξος, έτσι όπως μας τον περιέγραψαν: η δημιουργία συνθετικών φωνών που δεν θα ξεχωρίζουν ποιοτικά από τη φυσική ομιλία, θα έχουν υψηλή εκφραστικότητα, θα καλύπτουν μεγάλο εύρος ηχοχρωμάτων και διαφορετικών στυλ εκφώνησης και θα αξιοποιούνται σε πλήθος εφαρμογών προστιθέμενης αξίας, μετασχηματίζοντας δραστικά τον τρόπο που αλληλεπιδρούμε καθημερινά με ηλεκτρονικά μέσα και υπηρεσίες.

Μάλιστα, οι βλέψεις τους δεν περιορίζονται μόνο εντός των συνόρων: μας επεσήμαναν ότι η Ελλάδα, με την πολύχρονη ερευνητική και αναπτυξιακή της εμπειρία στον τομέα της γλωσσικής τεχνολογίας, μπορεί να παίξει σημαντικό ρόλο στη διάχυση γλωσσικής τεχνολογίας σε γειτονικές χώρες, πολλές από τις οποίες συγκριτικά υστερούν.

Ήδη, στο ΙΕΛ βρίσκεται σε εξέλιξη ερευνητικό έργο διασυνοριακής συνεργασίας Interreg, με στόχο τη μεταφορά της τεχνολογίας σύνθεσης φωνής στη βουλγαρική γλώσσα.

Η τεχνολογία σύνθεσης φωνής στο ΙΕΛ

  • 1997 - Εκφωνητής (1η γενιά) Σύνθεση με formants Το πρώτο εμπορικά διαθέσιμο σύστημα για τα ελληνικά.
  • 2002 - Εκφωνητής+ (2η γενιά) Σύνθεση με τεχνικές στο πεδίο του χρόνου.
  • 2006 - Νέα γενιά σύνθεσης (3η γενιά) Σύνθεση με αλγορίθμους επιλογής βέλτιστων λογατόμων Σύνθεση φωνής κορυφαίας ποιότητας για τα ελληνικά. Η τεχνολογία επιτυγχάνει πολύ υψηλή καταληπτότητα και μοναδική φυσικότητα, προσφέροντας συνθετική φωνή που σχεδόν δεν ξεχωρίζει από ένα φυσικό ομιλητή.
2 απόψεις
  1. avatar
    Από dr_jekyll_and_Mr_Hyde, 21 Απρ. 08
    Αναφορά  Σύνδεσμος

    Η τεχνολογία αυτή υπάρχει 3 χρόνια στο Λονδίνο...παλι καλά που την "ανακάλυψαν" οι πανεπιστήμονες μας.

  2. avatar
    Από dimosthenisgr, 15 Ιουν. 08
    Αναφορά  Σύνδεσμος

    Οπως ανέφερε ο κύριος εδώ και 2-3 χρόνια προσαρμόστηκε και στα ελληνικά. Μάθε να ακούς και να βλέπεις πρώτα και μετά να έχεις και άποψη.

    Και το παίζεις και ποιότητα. Αλίμονο σε όσους μείναν εδώ να ακούνε τα σχόλιά σου. Ας έμενες και εσύ να αγωνιστείς για τα καθημερινά προβλήματα...και όχι να την κάνεις με ελαφρά.

Η άποψη σας

Παρακαλούμε το κείμενό σας να είναι γραμμένο στην Ελληνική γλώσσα με πεζά γράμματα, σε αντίθετη περίπτωση ο Pathfinder έχει το δικαίωμα μη δημοσίευσής του.



+ αποδοχή των των όρων χρήσης του Pathfinder.

← περισσότερα θέματα από αυτή την ενότητα

Γιάννης Ριζόπουλος

Ο Γιάννης Ριζόπουλος γεννήθηκε στην Αθήνα (1952) και σπούδασε ηλεκτρονικά (1971-1974), όμως από φοιτητής ασχολήθηκε ενεργά με τη δημοσιογραφία ...

Διαφήμιση
  1. Η ποιότητα και η χροιά της φωνής εξαρτάται από τη φυσιολογία των εσωτερικών οργάνων κάθε ανθρώπου κι αυτός είναι ο βασικός λόγος που δύσκολα μπορεί μια μηχανή να συνθέσει φυσική φωνή...
  2. ...πολύ περισσότερο, καθώς το τελικό αποτέλεσμα επηρεάζουν αρκετοί άλλοι παράγοντες, όπως πχ. κάποιοι χαρακτηριστικοί μορφασμοί του ομιλητή και η γενικότερη διάθεσή το. Το γεγονός αυτό δυσκολεύει σημαντικά τη ζωή των δημιουργών «άβαταρ» (των εικονικών εκπροσώπων μας σε «μέρη» όπως το Second Life) στην προσπάθειά τους να τα κάνουν να μιλούν με φυσικότητα.
  3. Οι κυματομορφές στις οποίες μπορεί να αναλυθεί η ανθρώπινη φωνή είναι ιδιαίτερα περίπλοκες –όπως φαίνεται και στις οθόνες των ερευνητών του ΙΕΛ...
  4. ...που χρησιμοποιούν συγκεκριμένους εκφωνητές και εκφωνήτριες, κατάλληλα εκπαιδευμένους και με πολύ καθαρή άρθρωση...
  5. ...για να καταγράψουν τα χαρακτηριστικά φωνήματα του καθενός και να εμπλουτίσουν την τράπεζα δεδομένων του συστήματος.
  6. Το τελευταίο, με τη σειρά του, χρησιμοποιεί ειδικούς αλγόριθμους για να «συνθέσει»...
  7. ...βοηθούσης και της κατάλληλης επεξεργασίας στο στούντιο, τη φωνητική απόδοση οποιουδήποτε αυθαίρετου κειμένου.
  8. Το τελικό αποτέλεσμα βρίσκεται πολύ κοντά στη φυσική φωνή, παρότι εντελώς συνθετικό...
  9. ...διατηρώντας, μάλιστα, πολλά κοινά στοιχεία από πλευράς προσωδίας και προφοράς με τον αρχικό εκφωνητή, του οποίου η φωνή χρησίμευσε σαν βάση.
  10. Ο πιο γνωστός χρήστης συνθετικής φωνής σήμερα στον κόσμο δεν είναι άλλος από τον διάσημο αστροφυσικό Στέφεν Χόουκινγκ, που –λόγω ανήκεστης βλάβης της υγείας του- είναι υποχρεωμένος να κινείται με ειδικά διαμορφωμένη αναπηρική καρέκλα, πάνω στην οποία είναι προσαρμοσμένο σύστημα ομιλίας μέσω υπολογιστή (στη φωτογραφία, ο Χόουκινγκ με φίλους του, στο πανεπιστήμιο του Κέμπριτζ).
Περισσότερο TechnoΛογειν

"Ακολουθήστε" το Pathfinder Techno