A robotic hand holding a piece of DNA

“Ξεκλειδώνοντας” τα μυστικά του DNA με τη χρήση ΑΙ

Σε αυτή τη συνέντευξη, ο Ευάγγελος-Μάριος Νικολαδός μας περιγράφει την ενδιαφέρουσα πορεία του από την Ελλάδα στο Εδιμβούργο, όπου συνδυάζοντας βιολογία, πληροφορική και μαθηματικά αναζητά νέους τρόπους σχεδίασης DNA με τη χρήση τεχνητής νοημοσύνης (ΤΝ). Η πορεία του αναδεικνύει τις προκλήσεις στη συνθετική βιολογία και το συνδυασμό της με την TN και ανοίγει νέα παράθυρα σε έναν ενδιαφέροντα κόσμο επιστημονικής έρευνας. Επιπλέον, συζητά μαζί μας τις ανησυχίες που αναπτύσσονται γύρω από την τεχνητή νοημοσύνη και επισημαίνει τις προκλήσεις που αντιμετωπίζει ως ερευνητής, αναδεικνύοντας έτσι την ανάγκη για διαρκή καινοτομία στον κλάδο του.

Ευάγγελος -Μάριος Νικολαδός

Ευάγγελε, που βρίσκεσαι αυτήν την στιγμή; Έχεις φύγει από την Ελλάδα εδώ και κάποια χρόνια. Μίλησε μας για την ακαδημαϊκή σου πορεία. Πώς έφτασες έως εδώ;

Ξεκίνησα τις σπουδές μου στο τμήμα Μοριακής Βιολογίας και Γενετικής του Δημοκρίτειου Πανεπιστημίου Θράκης, το 2011, στην Αλεξανδρούπολη, αλλά δεν ολοκλήρωσα τη σχολή. Στο διάστημα 2013-14, μέσω μαθημάτων σε πλατφόρμες διαδικτυακής μάθησης, όπως Coursera και Edx, ήρθα σε επαφή με τον προγραμματισμό και ανακάλυψα το ενδιαφέρον μου για την βιοπληροφορική (bioinformatics). Γνώρισα ανθρώπους από το ΜΙΤ, οι οποίοι με παρέπεμψαν να κάνω αίτηση σε ένα ειδικό πρόγραμμα του Extension School του Harvard. Αρχικά, ήμουν έτοιμος να κάνω μια νέα τετραετία εκπαίδευσης, αλλά ενημερώθηκα ότι μπορώ να μεταφέρω όλες μου τις ακαδημαϊκές μονάδες (ECTS). Έτσι, αξιοποιώντας αυτήν τη δυνατότητα, αποφάσισα να συνεχίσω στο εξωτερικό, και ολοκλήρωσα τις σπουδές μου στο Harvard σε 2.5 χρόνια, το 2017.

Ποιος λοιπόν θα έλεγες ότι είναι ο τίτλος αυτού του πτυχίου ;

Βιολογικές σπουδές, αν και θεωρώ ότι είναι περισσότερο ένας συνδυασμός πληροφορικής, μαθηματικών και βιολογίας!Ακολούθως, συνέχισα στο Imperial College στο Λονδίνο, όπου έκανα μεταπτυχιακό στη συνθετική βιολογία και βιολογία συστημάτων ως MRes (Master of Research) για 3 μήνες και ενεργή έρευνα για 8 μήνες. Εκεί γνώρισα τον υπεύθυνό μου Dr Diego Oyarzún, ο οποίος μου πρότεινε να συνεχίσω ως διδακτορικός, κάτω από την επίβλεψή του, στο πανεπιστήμιο του Εδιμβούργου. Έτσι βρέθηκα στον κλάδο της συνθετικής βιολογίας – στο Ηνωμένο Βασίλειο (ΗΒ), πλέον, το λένε engineering biology. Η συνθετική βιολογία στο ΗΒ είναι πιο στοχευμένη, με εκτενή χρήση μαθηματικών μοντέλων, ενώ πλέον ακολουθείται μια πιο μια data-centric προσέγγιση, προσαρμοσμένη σε εφαρμογές Τεχνητής Νοημοσύνης.

Με απλά λόγια λοιπόν με τι θα έλεγες ότι ασχολείσαι αυτόν τον καιρό σε κάποιον που δεν έχει επαφή με αυτό το αντικείμενο;

Είναι περίεργη η θέση μου διότι οι βιολόγοι δεν με θεωρούν βιολόγο και αντίστοιχα οι προγραμματιστές δεν με θεωρούν κλασικό προγραμματιστή! Οπότε θα έλεγα ότι με τη χρήση της τεχνητής νοημοσύνης προσπαθώ να σχεδιάσω αποτελεσματικά και γρήγορα DNA. Συγκεκριμένα, προσπαθώ να βρω ποιοί συνδυασμοί βάσεων είναι κατάλληλοι ώστε να ρυθμιστεί πιο αποτελεσματικά η σύνθεση πρωτεϊνών, χημικών ουσιών, φαρμάκων ή οτιδήποτε θέλουμε να παράξουμε.

Τι είναι συνθετική βιολογία;

Προσπαθούμε να επανασχεδιάσουμε, να βελτιώσουμε μηχανισμούς ή και να φτιάξουμε καινούριους που δεν υπάρχουν στη φύση.

Αντιμετωπίζουμε τους έμβιους οργανισμούς πιο μηχανολογικά από ότι κάνει η βιοτεχνολογία. Κάθε κομμάτι ενός οργανισμού είναι για εμάς ένα ανεξάρτητο δομικό στοιχείο (building block), κάτι σαν τουβλάκι Lego, π.χ. DNA, πρωτεΐνη κ.ο.κ. Δηλαδή προσπαθούμε να επανασχεδιάσουμε, να βελτιώσουμε μηχανισμούς ή και να φτιάξουμε καινούριους που δεν υπάρχουν στη φύση. Εφαρμογές της συνθετικής βιολογίας συναντάμε στην υγεία, στην κοσμητολογία, στο περιβάλλον (όπως η αποσύνθεση του πλαστικού) και σε πολλά ακόμη.

Ένα πρόσφατο project σου;

Υπάρχει σχετική δημοσίευση στο Nature Communications και αφορά, μεταξύ άλλων, το κατά πόσο χρειαζόμαστε μεγάλο όγκο δεδομένων για να εκπαιδεύσουμε deep learning μοντέλα έκφρασης πρωτεϊνών από αλληλουχίες DNA. Κατέληξα στο συμπέρασμα ότι σε κάποιες περιπτώσεις αρκεί τα δεδομένα να είναι κυρίως ποιοτικά και όχι απλώς πολλά. Αυτή η συνθήκη εξυπηρετεί άριστα τις ερευνητικές ανάγκες των εφαρμογών της ΤΝ στην συνθετική βιολογία, καθώς η παραγωγή ενός και μόνο σετ βιολογικών δεδομένων είναι εξαιρετικά δαπανηρή.

Ποια είναι τα προβλήματα που αντιμετωπίζεις ως ερευνητής συνθετικής βιολογίας σε σύνδεση με την ΤΝ;

Πρώτον, δεν είναι ξεκάθαρο κατά πόσο υπάρχουν παραλληλισμοί μεταξύ των συμβατικών κλάδων της μηχανικής μάθησης (machine/deep learning) με τη βιολογία. Για παράδειγμα υπάρχει μια συνήθης παρεξήγηση που προκύπτει από την ιδέα ότι, καθώς το DNA αναπαριστά τη γλώσσα της ζωής, η χρήση deep learning για το DNA απαιτεί τη χρήση ενός γλωσσικού μοντέλου, όπως το ChatGPT ή άλλα παρόμοια μοντέλα LLMs, RNNs, κ.ά.

Ωστόσο, το ότι ένα μοντέλο λειτουργεί για κάποιον κλάδο δεν σημαίνει ότι λειτουργεί και για βιολογικές εφαρμογές. Γενικά, παρατηρούμε μια αδυναμία στην προσέγγιση του DNA όσον αφορά το ποιά μοντέλα ΤΝ είναι πιο κατάλληλα για την μελέτη του. Αυτό αφενός δημιουργεί μια δυσφορία σε έναν ερευνητή που θέλει να ασχοληθεί με αυτή τη θεματική- καθώς δεν υπάρχει μια ξεκάθαρη γραμμή να ακολουθήσει- αφετέρου μπορεί να οδηγήσει σε αδιέξοδο και εξαιρετική σπατάλη χρόνου. Ωστόσο προσφέρει την δυνατότητα σε έναν ερευνητή -εφόσον ανακαλύψει μια νέα μέθοδο- να εξελιχθεί και να δημιουργήσει εύκολα κάτι καινοτόμο, διαφορετικό και εφαρμοσμένο που θα τον κάνει να ξεχωρίσει.

Δεύτερον, δεν υπάρχει πάντα σαφής σύνδεση του πού θα εφαρμοστούν όλα αυτά που μελετά κάποιος. Είναι δουλειά του ερευνητή να σκεφτεί την ευρύτερη εικόνα και την εφαρμογή των αποτελεσμάτων μιας έρευνας.

Τρίτον, στον ακαδημαϊκό χώρο, είναι σύνηθες να μην εφαρμόζονται σωστές πρακτικές σχετικά με την ανάπτυξη λογισμικού. Είναι καθαρά αρμοδιότητα του ερευνητή το πώς και το πού θα αναπτύξει τον κώδικα. Έτσι, γίνεται η ζωή όλων πιο δύσκολη διότι μπορεί ο καθένας να έχει πολλές διαφορετικές λύσεις για το ίδιο πρόβλημα. Αυτό δυσχεραίνει την επικοινωνία, και την ανταλλαγή υλικού και κώδικα μεταξύ ερευνητών.

Άρα, δεν υπάρχει ένα πρότυπο ή μεθοδολογία (software framework) που θα μπορούν να ακολουθούν οι ερευνητές για την ανάπτυξη του κώδικα. Είναι ευρύτερο πρόβλημα αυτό και τελικά πού οφείλεται;

Δεν υπάρχει, και όσον αφορά τις βιοεφαρμογές, νομίζω ότι είναι πολύ πιο έντονο, επειδή τα άτομα με το σωστό συνδυασμό γνώσεων και δεξιοτήτων είναι πολύ λίγα. Καλώς ή κακώς, οι «κλασικές» εφαρμογές της τεχνητής νοημοσύνης (vision, speech, κ.α.) προσελκύουν ακόμα το μεγαλύτερο μέρος των διαθέσιμων δεξαμενών ταλέντου (talent pools). 

– Υπάρχει μία καχυποψία γύρω από την τεχνητή νοημοσύνη ειδικά όταν τα δεδομένα που χρησιμοποιούνται αφορούν το γενετικό υλικό (DNA) και το σώμα μας. Ποια είναι η άποψή σου όσον αφορά την ασφάλεια στην διαχείριση των βιολογικών και ιατρικών δεδομένων;

Νομικά, δεν υπάρχουν σαφείς απαντήσεις σε ερωτήματα σχετικά με την ιδιοκτησία και τη χρήση του νευρωνικού δικτύου και των δεδομένων πάνω στα οποία εκπαιδεύτηκε. Είναι μία γκρίζα ζώνη.

Έχω δουλέψει με ιατρικά δεδομένα (τομογραφίες εγκεφάλων), όπου το θέμα του απορρήτου είναι πιο ξεκάθαρο, αφού δεν βλέπουμε τα προσωπικά δεδομένα των ασθενών. Σε εφαρμογές όπως η δική μου, που δεν σχετίζονται απαραίτητα με ιατρικά θέματα, η ασφάλεια δεδομένων προς το παρόν περιορίζεται στη διεύθυνση IP, (δηλαδή η προέλευση των δεδομένων με βάση τον υπολογιστή/διακομιστή στον οποίο έχουν παραχθεί και αποθηκευτεί). Από την άλλην, όσον αφορά τη χρήση μοντέλων, νομικά, δεν υπάρχουν σαφείς απαντήσεις σε ερωτήματα σχετικά με την ιδιοκτησία και τη χρήση του νευρωνικού δικτύου και των δεδομένων πάνω στα οποία εκπαιδεύτηκε. Είναι μία γκρίζα ζώνη.

Ταυτόχρονα, δεν είναι λογικό να περιορίσουμε τη χρήση των νευρωνικών δικτύων που έχουν εκπαιδευτεί σε μη προσβάσιμα δεδομένα. Τουναντίον, πρέπει να εξασφαλίσουμε ότι ο κάθε ερευνητής έχει πρόσβαση. Ο περιορισμός της πρόσβασης σε λίγους, εμποδίζει τον ανταγωνισμό και δυσκολεύει τη διαδικασία ανάπτυξης και βελτίωσης των μοντέλων.

Ποια είναι η λύση σε αυτό το πρόβλημα; Πρέπει να θέσουμε κάποιους κανονισμούς ή μεθοδολογία;

Περισσότερο θα εστίαζα στο πώς έχουν παραχθεί τα δεδομένα, πώς διαχειρίζονται, πού αποθηκεύονται, ποιος έχει πρόσβαση και με ποιον τρόπο. Στον τομέα της τεχνητής νοημοσύνης, η μεθοδολογία εξαρτάται από την εφαρμογή της. Αν τα δεδομένα χρησιμοποιούνται μόνο για την εκπαίδευση ενός μοντέλου που δεν θα χρησιμοποιηθεί εκτενώς, τότε δε θεωρώ ότι είναι απαραίτητοι αυστηροί κανονισμοί. Σε περιπτώσεις, όμως, όπου υπάρχει σκοπός αξιοποίησης και εφαρμογής του μοντέλου, πρέπει να δημιουργηθούν δικλείδες για τη μεθοδολογία εκπαίδευσής του. 

Είναι σημαντικό να γνωρίζουμε πώς διαχειρίζονται τα δεδομένα και ποιος έχει πρόσβαση, ιδίως σε περιπτώσεις που κάτι δεν πηγαίνει καλά. Επίσης, είναι απαραίτητο να μη δεχόμαστε τυφλά τις προτάσεις ενός μοντέλου. Αντιθέτως, πρέπει να τις προσεγγίζουμε κριτικά, ιδίως αν δεν υπάρχει πρόσβαση σε εξηγήσιμες μεθόδους (Explainable AI). Επομένως, είναι κρίσιμη η εποπτεία των προβλέψεων ενός μοντέλου από έναν άνθρωπο/ειδικό, ειδικά όταν αυτές αφορούν ανθρώπινες ζωές.

Δηλαδή ενώ έχουμε αναθέσει σε κάποιον να ελέγξει το μοντέλο εν τέλει καταλήγει να βασίζεται στο μοντέλο; Και εξαιτίας της ΤΝ θα αρχίσουμε να γινόμαστε λιγότερο δημιουργικοί γιατί θα βασιζόμαστε σε έτοιμα αποτελέσματα;

Πιστεύω ότι εμείς πρέπει να εποπτεύουμε το μοντέλο καθώς είμαστε οι τελικοί κριτές του  αποτελέσματος (output). Δεν κατευθύνει το μοντέλο εμάς. Όχι ακόμα τουλάχιστον! Υπάρχει μία μεγάλη μερίδα ανθρώπων που δεν αφιερώνει χρόνο στην ερμηνεία των προτάσεων του μοντέλου, λόγω ευκολίας ή όγκου ερωτήσεων. Αυτό ανοίγει έναν νέο κλάδο, το λεγόμενο prompt engineering, με διάφορες προσεγγίσεις ανά τομέα.

Επιπλέον πιστεύω ότι ο αυτοματισμός και η τεχνητή νοημοσύνη δεν πάνε απαραίτητα παρέα. Προτού μιλήσουμε για αφανισμό θέσεων εργασίας, πρέπει να απαντήσουμε στο ερώτημα: Καταργεί η τεχνητή νοημοσύνη τις δουλειές, ή επιτρέπουμε εμείς τελικά την αυτοματοποίηση πραγμάτων που προηγουμένως δεν ήταν εφικτή; Η απώλεια εργασιών είναι αναπόφευκτη ούτως ή άλλως ως αποτέλεσμα εξέλιξης της τεχνολογίας. Αντίστοιχα όμως, δημιουργούνται άλλες.

Πώς προβλέπεται το μέλλον της συνύπαρξης της τεχνητής νοημοσύνης με την βιολογία και την υγεία;

Η πιο σημαντική προσφορά του κλάδου αυτού για το μέλλον είναι ότι θα μπορούμε πλέον να ερμηνεύσουμε και να αξιοποιήσουμε τον τεράστιο όγκο των δεδομένων που παράγουν οι διάφορες «ομικές» μέθοδοι, είτε πρόκειται για την υγεία είτε για άλλες παρεμβάσεις στη ζωή. Η πρόκληση ωστόσο είναι να λύσουμε πρακτικά προβλήματα και να κατανοήσουμε πώς η τεχνολογία επηρεάζει την καθημερινότητά μας. Τα τελευταία χρόνια, δεν αρκεί πλέον να αποδείξουμε απλώς ότι μπορούμε να “εκπαιδεύσουμε” ένα μοντέλο τεχνητής νοημοσύνης. Πρέπει να κατανοήσουμε γιατί το εκπαιδεύουμε, πού μπορεί να χρησιμοποιηθεί, και ποια είναι η πραγματική επίδρασή του.

Τελικά για σένα τι είναι η τεχνητή νοημοσύνη;

H ΤΝ λοιπόν αποτελεί, προς το παρόν, ένα εργαλείο το οποίο μπορεί να χρησιμοποιηθεί αποτελεσματικά σε αυστηρά ορισμένα προβλήματα, αλλά δε διαθέτει «πνεύμα» ούτε μπορεί να δημιουργήσει κάτι καινούργιο χωρίς πρώτα να έχει «εκπαιδευτεί» σε αυτό.

Αυτή είναι μια μεγάλη συζήτηση καθώς δεν συμφωνώ απόλυτα με τη χρήση του όρου νοημοσύνη. Θεωρώ πως σε πολλές εφαρμογές δε γίνεται σωστή διάκριση μεταξύ νοημοσύνης και μάθησης (εξού και το deep/machine learning).Μελετώντας λοιπόν την δομή ενός νευρώνα προσπαθήσαμε να τον μιμηθούμε προσαρμόζοντας τα στοιχεία αυτά σε συναρτήσεις και στο δυαδικό σύστημα των υπολογιστών. Ο εγκέφαλός μας αποτελεί δηλαδή έμπνευση για την δημιουργία νευρωνικών δικτύων αλλά μόνο στο επίπεδο της εκπαίδευσης ενός μοντέλου ΤΝ που χρησιμοποιεί προκαθορισμένα βάρη (weights) τα οποία τελικά βελτιώνει και προσαρμόζει όσο το εκπαιδεύουμε. Από την άλλη, κάθε συζήτηση περί νοημοσύνης προϋποθέτει ότι μπορούμε να ορίσουμε επαρκώς τι αποτελεί κοινή λογική και τι όχι, δηλαδή τι είναι δυνατό και τι αδύνατο, ή τουλάχιστον πιο πιθανό να συμβεί. Με απλά λόγια, φανταστείτε ότι κρατάτε ένα μολύβι και ανοίγετε την παλάμη σας. Η κοινή λογική μας λέει ότι το μολύβι θα πέσει, αλλά όχι την ακριβή θέση που θα καταλήξει. H ΤΝ λοιπόν αποτελεί, προς το παρόν, ένα εργαλείο το οποίο μπορεί να χρησιμοποιηθεί αποτελεσματικά σε αυστηρά ορισμένα προβλήματα, αλλά δε διαθέτει «πνεύμα» ούτε μπορεί να δημιουργήσει κάτι καινούργιο χωρίς πρώτα να έχει «εκπαιδευτεί» σε αυτό.