Η Γεωργία Μανιάτη είναι απόφοιτη της Φιλοσοφικής Αθηνών και σήμερα εργάζεται στη Samsung στον τομέα της συνθετικής ομιλίας. Μια εξαιρετικά ενδιαφέρουσα συζήτηση στην οποία μας περιγράφει την ασυνήθιστη πορεία της, εξηγεί τι είναι ακριβώς αυτό που κάνει, και δίνει απαντήσεις για πολλά πρακτικά και κοινωνικά ζητήματα που αφορούν την τεχνητή νοημοσύνη και τις εφαρμογές της στην επεξεργασία φυσικής γλώσσας. Υπολογιστική γλωσσολογία, σύνθεση φωνής, biases, deepfakes και νοημοσύνη είναι μερικές από τις έννοιες που αξίζουν ιδιαίτερης προσοχής.
– Γεωργία, έχεις ομολογουμένως μια πολύ ενδιαφέρουσα και ασυνήθιστη ακαδημαϊκή και επαγγελματική πορεία. Μπορείς να μας περιγράψεις τη διαδρομή σου από τη Φιλοσοφική Αθηνών ως τη Samsung;
Όπως όλοι οι μαθητές πριν πάμε στις Πανελλήνιες, έπρεπε να επιλέξω μια κατεύθυνση, οπότε επέλεξα με βάση τα ενδιαφέροντα και τις προτιμήσεις μου εκείνη τη περίοδο. Στράφηκα στη φιλολογία γιατί αγαπούσα πολύ τη γλώσσα και ιδιαίτερα τη λογοτεχνία. Στο πρώτο έτος συνειδητοποίησα ότι υπάρχει μια επιστήμη που δεν ήξερα, η γλωσσολογία, η οποία αν και βρίσκεται στα προγράμματα των θεωρητικών σπουδών, μοιάζει αρκετά με τις θετικές επιστήμες καθώς λειτουργεί με βάση την παρατήρηση. Στη φυσική, για παράδειγμα, μελετάμε φαινόμενα όπως η ταχύτητα ή η δύναμη. Το φαινόμενο το οποίο προσπαθεί να παρατηρήσει η γλωσσολογία είναι η γλώσσα, κάτι ιδιαίτερα δύσκολο γιατί ο άνθρωπος προσπαθεί να χρησιμοποιήσει τον εγκέφαλό του για να αποκρυπτογραφήσει το πώς δομείται η γλώσσα που ο ίδιος παράγει. Ήταν πολύ αποκαλυπτικό για μένα και αποφάσισα να ειδικευτώ σε αυτή την κατεύθυνση.
Αργότερα στις σπουδές μου ήρθα σε επαφή με έναν διεπιστημονικό τομέα της γλωσσολογίας που αφορά τη μοντελοποίηση της γλώσσας με τη βοήθεια της πληροφορικής, τη λεγόμενη υπολογιστική γλωσσολογία. Τότε συνειδητοποίησα ότι μπορούσα να συνδυάσω την κλίση που είχα κάποτε στα μαθηματικά με τις σπουδές μου στη γλωσσολογία και έτσι συνέχισα τις σπουδές μου στο Εδιμβούργο, στο μεταπτυχιακό πρόγραμμα Speech and Language Processing (M.Sc.), με υποτροφία από το Ίδρυμα Ωνάση.
Μετά το μεταπτυχιακό δούλεψα σε μια πολυεθνική εταιρεία στο Τορίνο στον τομέα της συνθετικής ομιλίας πριν καταλήξω τελικά να εργάζομαι για τη Samsung στην Αθήνα. Η γνωριμία μου με την ελληνική εταιρεία-τεχνοβλαστό (spin-off) Innoetics έγινε σε ένα συνέδριο στο Σαν Φρανσίσκο, όταν ακόμα φοιτούσα στο μεταπτυχιακό. Όταν η Innoetics εξαγοράστηκε από τη Samsung το 2017, ήρθαν σε επαφή μαζί μου. Χρειάζονταν έναν υπολογιστικό γλωσσολόγο γιατί ξαφνικά η τεχνολογία τους έπρεπε να προσαρμοστεί σε πάρα πολλές γλώσσες και να αναπτυχθεί άμεσα. Κάπως έτσι επέστρεψα στην Αθήνα, για να δουλέψω ως μέλος της Innoetics Samsung πλέον.
– Τι ακριβώς είναι η υπολογιστική γλωσσολογία;
Το φαινόμενο το οποίο προσπαθεί να παρατηρήσει η γλωσσολογία είναι η γλώσσα, κάτι ιδιαίτερα δύσκολο γιατί ο άνθρωπος προσπαθεί να χρησιμοποιήσει τον εγκέφαλό του για να αποκρυπτογραφήσει το πώς δομείται η γλώσσα που ο ίδιος παράγει.
Πρόκειται για έναν αρκετά ευρύ όρο θα έλεγα. Η γλωσσολογία εξετάζει την γλώσσα σε διαφορετικά επίπεδα και έχει διαφορετικούς τομείς, όπως η φωνητική που μελετά τους ήχους που διαφοροποιούν τη σημασία των λέξεων, και η μορφολογία που μελετά το πώς τα μικρότερα συστατικά της γλώσσας δομούν το νόημα. Ακριβώς όπως η γλωσσολογία εξετάζει τη δομή της γλώσσας με την παρατήρηση, η υπολογιστική γλωσσολογία συμπληρώνει βοηθώντας με υπολογιστικά εργαλεία, όπως η στατιστική και η μηχανική μάθηση, την μοντελοποίηση της γλώσσας. Πρόκειται για έναν εφαρμοσμένο τομέα στον οποίο ο γλωσσολόγος αντί να μελετά μία μεμονωμένη πρόταση για να καταλάβει, π.χ., πώς δομείται η σημασία της, μπορεί να μελετήσει ένα σύνολο εκατομμυρίων προτάσεων, χρησιμοποιώντας μετρικές, όπως στατιστικές συνεμφανίσεις λέξεων κτλ. Στην ουσία, αλλάζει η οπτική από την οποία εξετάζουμε και απαντάμε στα ερωτήματα που θέτουμε.
Ως προς το κομμάτι των εφαρμογών επεξεργασίας φυσικής γλώσσας (Νatural Language Processing – NLP), όπως σε όλους τους τομείς μηχανικής μάθησης, πρέπει να υπάρχει κάποιος επιστήμονας που έχει ειδική γνώση του τομέα αυτού (domain knowledge). Στη βιοπληροφορική π.χ. χρειάζεται να υπάρχει κάποιος βιολόγος για να ορίσει το πρόβλημα, να φέρει τα δεδομένα και να διασφαλίσει ότι η εφαρμογή λειτουργεί σωστά. Και στην επεξεργασία φυσικής γλώσσας για να χρησιμοποιήσουμε τεχνικές μηχανικής μάθησης απαιτείται ένα μεγάλο σύνολο δεδομένων. Εκεί, ο υπολογιστικός γλωσσολόγος θα πρέπει να διασφαλίσει ότι τα δεδομένα είναι αντιπροσωπευτικά της γλώσσας και της εφαρμογής την οποία θέλουμε να αναπτύξουμε. Και φυσικά, γνωρίζοντας τις ιδιαιτερότητες των επιμέρους γλωσσών, μπορούμε να καθορίσουμε τι είδους χαρακτηριστικά (features) θα βοηθούσαν τους αλγορίθμους μας, τι είδους αλγορίθμους θα μπορούσαμε να χρησιμοποιήσουμε και τέλος να αξιολογήσουμε τα τελικά μοντέλα. Πρόκειται για έναν πλήρως διεπιστημονικό τομέα.
– Μπορείς να μας δώσεις ορισμένες εφαρμογές της υπολογιστικής γλωσσολογίας στην καθημερινή ζωή;
Αρχικά να σημειώσω ότι οι εφαρμογές επεξεργασίας φυσικής γλώσσας δεν είναι κάτι καινούργιο. Τις χρησιμοποιούμε ήδη εδώ και χρόνια και μπορεί να μην το έχουμε συνειδητοποιήσει. Το πιο απλό παράδειγμα είναι η αναζήτηση στο διαδίκτυο· στην ουσία δίνουμε ένα ερώτημα στη μηχανή αναζήτησης και υπάρχει ένας αλγόριθμος σημασίας που μετρά κατά πόσο οι σελίδες που υπάρχουν στο διαδίκτυο έχουν συνάφεια με το δικό μας ερώτημα και μας επιστρέφει τις πιο συναφείς. Έπειτα η μετάφραση, η αυτόματη διόρθωση κειμένου ή η αυτόματη πρόβλεψη λέξης που μας διευκολύνει στη γρηγορότερη πληκτρολόγηση είναι όλα εφαρμογές NLP. Ακόμα και η ανίχνευση ανεπιθύμητης αλληλογραφίας βασίζεται σε αλγόριθμους που έχουν εκπαιδευτεί να εντοπίζουν κάποια πρότυπα που συναντώνται συχνά σε «spam» emails.
Συγκεκριμένα για την συνθετική ομιλία (text-to-speech), που είναι ο τομέας στον οποίο δουλεύω τώρα, έχει συντελεστεί μεγάλη πρόοδος και πλέον οι φωνές είναι αρκετά φυσικές. Υπάρχουν εκτεταμένες σχετικές εφαρμογές όπως οι φωνητικοί βοηθοί, οι φωνητικές οδηγίες στο GPS, η αυτόματη ανάγνωση βιβλίων (audiobooks), εφαρμογές εκμάθησης ξένων γλωσσών και προφοράς (τύπου Duolingo) και ανακοινώσεις σε αεροδρόμια και σιδηροδρομικούς σταθμούς.
– Ας εστιάσουμε λίγο περισσότερο στη σύνθεση της φωνής. Ποια είναι η διαδικασία για τη δημιουργία ενός συστήματος συνθετικής ομιλίας από το μηδέν;
Ωραία, ας πούμε ότι θέλουμε να δημιουργήσουμε μια καινούργια συνθετική φωνή στα ελληνικά και έχουμε βρει μια ηθοποιό της οποίας τη χροιά θέλουμε να μιμηθούμε.
Σχεδίαση συνόλου δεδομένων: Το πρώτο βήμα είναι γλωσσολογικό, δηλαδή, ανάλογα με τη γλώσσα πρέπει να έχουμε πλήρη γνώση του ήχων (φωνήματα) που παράγονται, ώστε να μπορέσουμε να σχεδιάσουμε ένα κείμενο που θα επιτρέψει να εμφανιστούν όλοι οι πιθανοί συνδυασμοί ήχων της γλώσσας κατά την ηχογράφηση. To κείμενο σχεδιάζεται προσεκτικά ανάλογα με την εφαρμογή στην οποία θα χρησιμοποιηθεί το σύστημα συνθετικής ομιλίας. Αν φτιάχνουμε ένα σύστημα ομιλίας για GPS, θα πρέπει, φυσικά, το κείμενο να είναι προσαρμοσμένο στη περίσταση (domain specific), δηλαδή να περιλαμβάνει κατευθύνσεις, οδηγίες, δρόμους κτλ.
Ηχογράφηση: Ακολουθεί η ηχογράφηση του κειμένου σε ένα στούντιο, μια χρονοβόρα διαδικασία, όπου η ηθοποιός διαβάζει το κείμενο μία-μία πρόταση. Μέχρι πριν από μερικά χρόνια, για να φτιάξουμε οποιαδήποτε νέα φωνή, χρειαζόμασταν χιλιάδες προτάσεις, το οποίο μεταφράζεται σε πολλές εβδομάδες ηχογραφήσεων.
Προετοιμασία δεδομένων: Για να μπορέσουμε να εκπαιδεύσουμε το σύστημα με επιβλεπόμενη μάθηση χρειαζόμαστε “ετικέτες” για τον κάθε ήχο στα δεδομένα μας. Η ορθογραφία δεν είναι φωνητική, π.χ. ενώ ο ήχος «ι» είναι ο ίδιος, υπάρχουν πολλοί διαφορετικοί τρόποι γραφής του. Οπότε, χρειαζόμαστε μια ενδιάμεση αναπαράσταση σε φωνητική ορθογραφία, όπου ένας ήχος αντιστοιχεί σε ένα μόνο σύμβολο. Επακόλουθα, χρησιμοποιούμε έναν αλγόριθμο για να ευθυγραμμίσουμε τους ήχους με τις ετικέτες, ώστε να ξέρουμε ποιος ήχος βρίσκεται σε κάθε χρονικό σημείο κάθε ηχογράφησης. Έτσι, ολοκληρώνεται η επισημείωση των δεδομένων εκπαίδευσης. Στη συνέχεια μετατρέπουμε τον ήχο από αρχείο .wav σε μια αναπαράσταση που είναι κατάλληλη για επεξεργασία από το μοντέλο και εξάγουμε τα χαρακτηριστικά του.
Εκπαίδευση μοντέλου: Ξεκινάμε να εκπαιδεύουμε το μοντέλο ομιλίας που, όπως οι περισσότεροι αλγόριθμοι μηχανικής μάθησης σήμερα, αποτελείται από νευρωνικά δίκτυα. Στη διάρκεια της εκπαίδευσης ο αλγόριθμος «βλέπει» ένα-ένα όλα τα παραδείγματα και ελαχιστοποιεί ένα σφάλμα προσπαθώντας να προβλέψει τελικά τα χαρακτηριστικά κάθε ήχου. Όταν ολοκληρωθεί η εκπαίδευση, έχουμε ένα μοντέλο που μπορεί να παράγει τον σωστό ήχο για κάθε φώνημα, και μπορεί να προφέρει μια ολόκληρη πρόταση με το ηχόχρωμα, τη προφορά και το στυλ ομιλίας του ηθοποιού.
Σήμερα μπορούμε να χρησιμοποιούμε προ-εκπαιδευμένα (pre-trained) μοντέλα και να τους δίνουμε ελάχιστο ήχο, κάποια λεπτά, από έναν νέο ομιλητή και να κλωνοποιούμε με αυτόν τον τρόπο τη φωνή του, επειδή το μοντέλο ήταν ήδη προ-εκπαιδευμένο και ήξερε τη γλώσσα. Έχει γίνει πολύ πιο εύκολο να δημιουργήσουμε νέες φωνές πλέον. Πέρα από τη δημιουργία νέων φωνών, ένα μεγάλο μέρος της δουλειάς μας επικεντρώνεται στη βελτιστοποίηση καθενός από τους αλγορίθμους που χρησιμοποιούνται στις παραπάνω διαδικασίες.
– Τι είναι αυτό που λείπει αυτή τη στιγμή από ένα σύστημα συνθετικής ομιλίας; Που προσανατολίζεται η έρευνα;
Για να καταλάβουμε τι λείπει, πρέπει να καταλάβουμε πώς έχει τεθεί το πρόβλημα της συνθετικής ομιλίας σήμερα. Είναι εστιασμένο σε επίπεδο πρότασης, δηλαδή στη μετατροπή μιας γραπτής πρότασης σε προφορική. Αντίθετα, οι άνθρωποι όταν μιλάμε δεν προφέρουμε απλώς τις λέξεις στη σειρά. Εισάγουμε πολλές άλλες παραμέτρους στο σήμα που παράγουμε· διαφοροποιούμε την εκφραστικότητά μας, προσαρμόζουμε τον τόνο και την ένταση της φωνής μας, δίνουμε έμφαση σε συγκεκριμένες λέξεις. Ακόμα και ανάλογα σε ποιον απευθυνόμαστε μπορεί να προσέξουμε περισσότερο την άρθρωσή μας. Οπότε το πρόβλημα είναι ότι αντιμετωπίζουμε τη συνθετική ομιλία σε επίπεδο πρότασης χωρίς το περικείμενο (context) και ότι δεν έχουμε και γνώση για το τι έχει ειπωθεί νωρίτερα στη συζήτηση, π.χ. τη συναισθηματική κατάσταση του χρήστη στην περίπτωση ενός ψηφιακού βοηθού. Για να γίνει η συνθετική ομιλία πιο φυσική, πρέπει να αρχίσουμε να καταλαβαίνουμε τι εκφωνούμε. Και εκεί έρχονται τα σημασιολογικά μοντέλα, όπως το BERT, τα οποία δημιουργούν αναπαραστάσεις σημασίας για κάθε λέξη, έτσι ώστε πριν την προφέρουμε να ξέρουμε αν αυτό που θα πούμε τώρα είναι χαρούμενο ή λυπηρό για παράδειγμα.
Μια άλλη μεγάλη τάση που υπάρχει γενικά στο Generative AI τώρα είναι η προσωποποίηση. Η Samsung ήδη στην Κορέα και στην Αμερική έχει αναπτύξει μια εφαρμογή που δίνει τη δυνατότητα στον χρήστη να απαντήσει σε μια κλήση με ένα γραπτό μήνυμα το οποίο μετατρέπεται σε συνθετική ομιλία με τη δική του χροιά και το ακούει αμέσως αυτός που καλεί. Ο χρήστης προσαρμόζει το σύστημα στη φωνή του, ηχογραφώντας μόλις 10 προτάσεις και εκπαιδεύοντάς το για μερικά λεπτά τοπικά στο κινητό του!
– Ποιο πιστεύεις ότι είναι το σημαντικότερο εμπόδιο αυτή τη στιγμή στη βελτίωση των συστημάτων συνθετικής ομιλίας – η ποσότητα, η ποιότητα των δεδομένων ή οι αρχιτεκτονικές των μοντέλων που χρησιμοποιούνται;
Όπως ανέφερα και πριν αυτό που λείπει σήμερα από τα δεδομένα εκπαίδευσης είναι το περικείμενο. Οπότε, όντως, είναι θέμα δεδομένων. Δεν έχουμε τα δεδομένα ώστε να μπορούμε να αποφασίσουμε πώς θα προφέρουμε μία πρόταση, με τι συναίσθημα και με τι στυλ, ανάλογα με το τι έχει ειπωθεί μία ολόκληρη παράγραφο πριν. Και αυτό γιατί προς το παρόν ηχογραφούμε σε επίπεδο πρότασης.
Το άλλο, πολύ σημαντικό επίσης, είναι ο τρόπος αξιολόγησης των υπαρχόντων μοντέλων. Στην αναγνώριση φωνής (μετατροπή ομιλίας σε κείμενο) το πρόβλημα είναι να μεταγράψουμε τις λέξεις που ακούστηκαν. Εκεί μπορούμε να έχουμε μια αντικειμενική μετρική αξιολόγησης ως εξής: βάζουμε έναν άνθρωπο να γράψει τις λέξεις και μετά βάζουμε το σύστημα αναγνώρισης φωνής και μετράμε το ποσοστό λανθασμένων λέξεων (word error rate). Έτσι γνωρίζουμε με βεβαιότητα πότε το μοντέλο βελτιώνεται. Στη συνθετική ομιλία τα πράγματα δεν είναι τόσο απλά γιατί δεν υπάρχει ένας σωστός τρόπος να πούμε μία πρόταση. Αν πω την ίδια πρόταση δέκα φορές, θα τη πω με δέκα διαφορετικούς τρόπους. Οπότε δεν έχουμε αντικειμενική μετρική αυτή τη στιγμή στη συνθετική ομιλία. Η αξιολόγηση γίνεται κυρίως με υποκειμενικές αξιολογήσεις, δηλαδή πειράματα ακρόασης (listening tests) και συγκριτική αξιολόγηση μεταξύ των αποτελεσμάτων διάφορων μοντέλων. Υπάρχει ολόκληρο πεδίο έρευνας για αυτόματη αξιολόγηση (automatic evaluation) με πιο αντικειμενικές μετρικές, ώστε να είμαστε σίγουροι ότι οι σχεδιαστικές επιλογές μας είναι οι κατάλληλες για την πρόοδο του μοντέλου μας.
– Μίλησε μας για ένα project σου που ξεχωρίζεις.
Ένα από τα θέματα που με απασχολεί είναι ο συνεχώς αυξανόμενος όγκος δεδομένων που απαιτείται για την εκπαίδευση των μοντέλων σε μια καινούργια γλώσσα. Μια ερευνητική τάση είναι πώς μπορούμε να προσαρμόσουμε μια τεχνολογία σε γλώσσες με λίγα διαθέσιμα δεδομένα (low resource languages). Το project λοιπόν στο οποίο συμμετείχα στα πλαίσια της εταιρείας είχε ως στόχο τη δημιουργία ενός συστήματος συνθετικής ομιλίας χρησιμοποιώντας λίγα δευτερόλεπτα από τη φωνή ενός ομιλητή. Είχαμε ήδη ένα προ-εκπαιδευμένο μοντέλο (pre-trained model) σε πάρα πολλούς ομιλητές πέντε γλωσσών και καταφέραμε χρησιμοποιώντας 5-10 δευτερόλεπτα ελληνικών, μιας γλώσσας που δεν υπήρχε στα δεδομένα εκπαίδευσης του pre-trained μοντέλου, να παράγουμε συνθετική ομιλία του Έλληνα ομιλητή. Το εγχείρημα αυτό στηρίχθηκε σε μια θεωρία της γλωσσολογίας σύμφωνα με την οποία ήχοι που μοιάζουν μεταξύ τους στον τρόπο που προφέρονται, π.χ. το «π» και το «μπ», έχουν κοινά χαρακτηριστικά τα οποία αποτυπώνονται και στο φάσμα τους (spectrogram). Έτσι, έχοντας κωδικοποιήσει τα κοινά αυτά χαρακτηριστικά μπορούμε με λιγότερα δεδομένα να εκπαιδεύσουμε τα ίδια μοντέλα.
– Πέρα από τις εξαιρετικά χρήσιμες εφαρμογές τέτοιων συστημάτων, όπως οι ψηφιακοί βοηθοί, βλέπουμε τον τελευταίο καιρό να χρησιμοποιείται αυτή η τεχνολογία για την κατασκευή ψευδών ηχητικών ντοκουμέντων (deepfakes). Τι πιστεύεις ότι πρέπει να γίνει για τον περιορισμό τους;
Το ενδεχόμενο κακόβουλης χρήσης δεν μπορεί να αποτελέσει λόγο για να απαγορευτούν τα κουζινομάχαιρα, η συνθετική ομιλία, και η όποια πρόοδος του ανθρώπου σε εργαλεία και τεχνολογίες.
Όπως είπαμε και πριν, πλέον είναι αρκετά εύκολο να κλωνοποιήσει κανείς μια φωνή χρησιμοποιώντας κάποια δευτερόλεπτα ομιλίας, που ειδικά για δημόσια πρόσωπα είναι ευρέως διαθέσιμα. Αυτό έχει προφανώς πολλές προεκτάσεις σε deepfakes. Σχετικά με την επικινδυνότητά τους, προκύπτουν δύο ερωτήματα: από τη μία, αν εμείς ως χρήστες των μέσων ενημέρωσης μπορεί να πέσουμε θύματα παραπληροφόρησης, και, από την άλλη, αν μπορεί να εξαπατηθεί ένα σύστημα ασφάλειας, όπως ένα τραπεζικό σύστημα που χρησιμοποιεί βιομετρικά δεδομένα φωνής (voice biometrics) για την επαλήθευση της ταυτότητας του χρήστη. Το πρώτο ερώτημα αφορά 100% την εκπαίδευση και την ενημέρωση της κοινωνίας γύρω από αυτή τη τεχνολογία, την κριτική σκέψη και την αναζήτηση έγκυρων πηγών. Προς αυτήν την κατεύθυνση υπάρχει και η διαδικασία της συστηματικής επικύρωσης των ειδήσεων από ειδικούς (fact-checking). (Διάβασε περισσότερα σχετικά με αυτό στη συνέντευξη μας με τον Ανδρόνικο Κουτρουμπέλη από το FactReview εδώ) Όσον αφορά την εξαπάτηση των συστημάτων ασφαλείας υπάρχει σχετικό ερευνητικό πεδίο που εστιάζει στον εντοπισμό κακόβουλων επιθέσεων (spoof speech detection), με σκοπό την ανίχνευση των κατασκευασμένων φωνητικών στην περίπτωση της ομιλίας. Σε κάθε περίπτωση, είμαι υπέρ του ανοιχτού λογισμικού και δεν νομίζω ότι θα μπορούσε να εφαρμοστεί κάποιος παγκόσμιος περιορισμός στην ανοιχτή δημοσίευση (open-sourcing).
Η σύνθεση ομιλίας, και γενικότερα τα εργαλεία τεχνητής νοημοσύνης, θα πρέπει να γίνουν κοινωνικά αποδεκτά όπως το κουζινομάχαιρο. Το κουζινομάχαιρο είναι ένα βασικό και πολύτιμο εργαλείο σε κάθε νοικοκυριό, αφού βοηθά στην προετοιμασία του φαγητού. Ταυτόχρονα είναι κοφτερό, και μπορεί να γίνει επικίνδυνο αν βρεθεί σε λάθος χέρια. Παρομοίως, η σύνθεση ομιλίας χρησιμεύει ως ένα σημαντικό τεχνολογικό εργαλείο για την επικοινωνία και την πρόσβαση σε διαδικτυακές πληροφορίες μέσω της φωνής. Ωστόσο, αν η τεχνολογία της κλωνοποίησης φωνής πέσει σε λάθος χέρια, μπορεί να χρησιμοποιηθεί κακόβουλα, όπως για πλαστοπροσωπία και παραπλάνηση. Το ενδεχόμενο κακόβουλης χρήσης δεν μπορεί να αποτελέσει λόγο για να απαγορευτούν τα κουζινομάχαιρα, η συνθετική ομιλία, και η όποια πρόοδος του ανθρώπου σε εργαλεία και τεχνολογίες.
– Είναι γνωστό ότι τα μοντέλα μηχανικής μάθησης αναπαράγουν τις προκαταλήψεις (biases) που υπάρχουν στα δεδομένα που χρησιμοποιήθηκαν για την εκπαίδευση τους. Ποιος είναι ο ρόλος ενός γλωσσολόγου στην αντιμετώπιση αυτού του φαινομένου;
Στο κομμάτι των συστημάτων επεξεργασίας φυσικής γλώσσας, όπου τα πρωτογενή δεδομένα είναι γλωσσικά, ο γλωσσολόγος που κάνει τη συλλογή των δεδομένων θα πρέπει να διασφαλίσει ότι αυτά είναι αντιπροσωπευτικά της κοινότητας στην οποία θα απευθυνθεί η εκάστοτε εφαρμογή.
Στο κομμάτι της συνθετικής ομιλίας δεν παράγουμε εμείς κάποιο περιεχόμενο ή ιδέες που θα μπορούσαν να έχουν προκαταλήψεις. Eκφωνούμε το περιεχόμενο. Ωστόσο, έχει ασκηθεί κριτική για την επιλογή των φωνών που έχουν οι ψηφιακοί βοηθοί, καθώς θεωρείται πως αναπαράγουν στερεότυπα ως προς τη θέση της γυναίκας, συγκεκριμένα την ταύτιση του γυναικείου φύλου με την παροχή βοήθειας και φροντίδας. Γιατί φωνητικοί βοηθοί όπως οι Siri, Google Home, Alexa έχουν προεπιλεγμένη γυναικεία χροιά (ακόμα κι αν λένε πως δεν έχουν φύλο); Φυσικά, αυτό προκύπτει από σχεδιαστικές επιλογές της εταιρείας για την περσόνα του βοηθού. Αλλά τίθενται και ζητήματα συμπερίληψης. Γιατί οι επιλογές που έχει ο χρήστης είναι δυαδικές ως προς το φύλο και δεν υπάρχουν φωνές με αμφισημία φύλου, για χρήστες που πιθανόν να ταυτίζονται περισσότερο με αυτές; Η απουσία διαφορετικότητας στους δημιουργούς λογισμικού μπορεί να οδηγήσει σε προϊόντα που δεν ανταποκρίνονται στις ανάγκες όλων των χρηστών.
Πάντως, το ζήτημα των προκαταλήψεων (biases) είναι πολύ μεγάλο στη μηχανική μάθηση με τα περισσότερα παραδείγματα να προέρχονται από τον τομέα της εικόνας, π.χ. ένα σύστημα εντοπισμού πρώιμων μορφών καρκίνου από φωτογραφίες δέρματος που είχε εκπαιδευτεί σε καυκάσιους πληθυσμούς είχε πολύ κακή απόδοση σε έγχρωμους ανθρώπους. Όσον αφορά τη γλώσσα, ένα γνωστό περιστατικό είναι το εσωτερικό σύστημα αξιολόγησης υποψηφίων της Amazon, που βασιζόταν σε ένα μοντέλο εκπαιδευμένο με βιογραφικά των υπαλλήλων. Μετά από αρκετά χρόνια διαπιστώθηκε ότι το μοντέλο αυτό ήταν σεξιστικό και απέρριπτε τα γυναικεία βιογραφικά επειδή στα δεδομένα εκπαίδευσης οι υπάλληλοι ήταν ήδη σε συντριπτική πλειονότητα άντρες. Γενικά, στο κομμάτι των συστημάτων επεξεργασίας φυσικής γλώσσας, όπου τα πρωτογενή δεδομένα είναι γλωσσικά, ο γλωσσολόγος που κάνει τη συλλογή των δεδομένων θα πρέπει να διασφαλίσει ότι αυτά είναι αντιπροσωπευτικά της κοινότητας στην οποία θα απευθυνθεί η εκάστοτε εφαρμογή.
– Ποιες είναι οι σκέψεις σου σχετικά με το κατά πόσο τα υπάρχοντα συστήματα TN διαθέτουν πραγματική νοημοσύνη;
Αυτή τη στιγμή η νοημοσύνη του ChatGPT είναι μία μονοδιάστατη νοημοσύνη που ακολουθεί την τυπική λογική και την αναγνώριση προτύπων. Ο άνθρωπος δεν είναι μονοδιάστατα τυπικά λογικός αλλά έχει μια πολυδιάστατη «λογική» που μπορεί να την αντιμετωπίσει με νέους τρόπους λόγω συναισθήματος και εμπειρίας.
Είναι μεγάλη και σε ένα βαθμό φιλοσοφική αυτή η συζήτηση και βασικά η απάντηση εξαρτάται από το πώς θα ορίσουμε τη νοημοσύνη, δηλαδή ποια όντα θεωρούμε νοήμονα. Τα όντα που απλώς παράγουν γλώσσα είναι νοήμονα; Αν αυτός είναι ο ορισμός της νοημοσύνης, τότε ναι, το ChatGPT έχει νοημοσύνη να παράγει κείμενο που έχει συνοχή, συνεκτικότητα και απαντάει σε ερωτήματα. Τα συστήματα ΤΝ, όπως έχει εξελιχθεί η μηχανική μάθηση σήμερα, κάνουν στην ουσία αναγνώριση και αντιστοίχιση προτύπων (pattern recognition/matching) των μαθηματικών αναπαραστάσεων των δεδομένων. Άρα αυτή τη στιγμή η νοημοσύνη του ChatGPT είναι μία μονοδιάστατη νοημοσύνη που ακολουθεί την τυπική λογική και την αναγνώριση προτύπων.
Πολλοί φιλόσοφοι λένε ότι η ανθρώπινη νοημοσύνη δεν είναι μονοδιάστατη αλλά ο άνθρωπος πέρα από την τυπική λογική διαθέτει την αίσθηση της εμπειρίας του παρελθόντος-παρόντος-μέλλοντος, την αίσθηση της ιστορίας, του πόνου, της νοσταλγίας. Μπορεί κάτι τετριμμένο και λογικά μονοδιάστατο να το αντιμετωπίσει με έναν νέο ευφυή τρόπο όπως είναι το χιούμορ ή η τέχνη. Επομένως, ο άνθρωπος δεν είναι μονοδιάστατα τυπικά λογικός αλλά έχει μια πολυδιάστατη «λογική» που μπορεί να την αντιμετωπίσει με νέους τρόπους λόγω συναισθήματος και εμπειρίας. Προσωπικά δε νομίζω ότι μιλάμε για το επίπεδο νοημοσύνης του ανθρώπου σήμερα. Παρόλο που τα υπάρχοντα μοντέλα εμπλουτίζονται συνεχώς με νέες δυνατότητες όπως η όραση δεν έχουμε φτάσει ακόμα στην Γενική ΤΝ (Artificial General Intelligence), όπου κάποιο σύστημα θα λαμβάνει ερεθίσματα σε πραγματικό χρόνο από διάφορα κανάλια και θα είναι κάτι αντίστοιχο με την εμπειρία που έχει ο άνθρωπος ώστε να μπορούμε να πούμε ότι έχει και αντίστοιχη νοημοσύνη.