Η ραγδαία πρόοδος της τεχνητής νοημοσύνης φέρνει ένα νέο ορόσημο πιο κοντά από ποτέ: την κατάκτηση ενός από τα πιο απαιτητικά τεστ γνώσεων που έχουν δημιουργηθεί, του «Humanity’s Last Exam» (HLE). Σύμφωνα με τους δημιουργούς του, τα πιο προηγμένα συστήματα ενδέχεται να προσεγγίσουν το τέλειο σκορ μέσα στους επόμενους μήνες.
Το HLE σχεδιάστηκε ως ένα εξαιρετικά απαιτητικό benchmark, με 2.500 ερωτήσεις που καλύπτουν περίπου 100 επιστημονικά πεδία — από την πυραυλική μέχρι τη μυθολογία. Οι ερωτήσεις απαιτούν επίπεδο κατανόησης αντίστοιχο διδακτορικού, με ένα σχεδόν τέλειο αποτέλεσμα να αντιστοιχεί θεωρητικά σε έναν «καθολικό ειδικό».
Μέχρι πρόσφατα, τα αποτελέσματα των συστημάτων τεχνητής νοημοσύνης παρέμεναν περιορισμένα. Το ChatGPT της OpenAI είχε σημειώσει μόλις 3%, ενώ αντίστοιχες προσπάθειες από την Google και την Anthropic δεν είχαν αποδώσει πολύ καλύτερα αποτελέσματα.
Η εικόνα, ωστόσο, αλλάζει με εντυπωσιακή ταχύτητα. Το Gemini της Google έφτασε στο 45,9% τον Φεβρουάριο, σχεδόν διπλασιάζοντας τις επιδόσεις του μέσα σε λίγους μήνες. Σύμφωνα με τον Calvin Zhang, επικεφαλής έρευνας στη Scale AI, το τέλειο σκορ δεν αποτελεί πλέον μακρινό σενάριο.
«Θέλαμε να δημιουργήσουμε ένα benchmark στο επίπεδο των κορυφαίων ειδικών, κάτι που ελάχιστοι άνθρωποι μπορούν να επιλύσουν», σημειώνει. Από την πλευρά της, η Google DeepMind υπογραμμίζει τη ραγδαία βελτίωση των δυνατοτήτων συλλογισμού των μοντέλων, με την product manager Kate Olszewska να εκτιμά ότι η πρόοδος είναι «εντυπωσιακή».
Την ίδια στιγμή, το σύστημα Claude της Anthropic έχει ήδη φτάσει στο 34,2% και συνεχίζει να βελτιώνεται. Ένα αποτέλεσμα κοντά στο 100% θα σηματοδοτούσε ένα κρίσιμο σημείο καμπής, καθώς το HLE έχει σχεδιαστεί ως το πιο απαιτητικό τεστ «κλειστού τύπου» — δηλαδή βασισμένο αποκλειστικά σε ήδη γνωστή ανθρώπινη γνώση.
Αν αυτό επιτευχθεί, το επόμενο βήμα θα είναι ακόμη πιο φιλόδοξο: η αξιολόγηση της τεχνητής νοημοσύνης με ερωτήσεις των οποίων οι απαντήσεις δεν είναι γνωστές ούτε στους ανθρώπους.
Το HLE δημιουργήθηκε σε συνεργασία της Scale με το Center for AI Safety, με στόχο να εξετάσει όχι μόνο το εύρος γνώσεων αλλά και το βάθος κατανόησης. Περισσότεροι από ειδικοί από 50 χώρες υπέβαλαν συνολικά 70.000 ερωτήσεις, ανταποκρινόμενοι σε διεθνή πρόσκληση.
Η διαδικασία επιλογής ήταν αυστηρή: οι ερωτήσεις έπρεπε να έχουν σαφείς απαντήσεις, αλλά να μην μπορούν εύκολα να εντοπιστούν στο διαδίκτυο. Τελικά, επιλέχθηκαν 2.500, ενώ αρκετές παραμένουν μη δημοσιευμένες ώστε να διασφαλιστεί η αξιοπιστία του τεστ.
Η σημασία ενός τέτοιου επιτεύγματος συγκρίνεται ήδη με ιστορικές στιγμές στην εξέλιξη της τεχνητής νοημοσύνης, όπως η νίκη του υπερυπολογιστή Deep Blue της IBM απέναντι στον Garry Kasparov το 1997.
Παρά τη θεαματική πρόοδο, οι ειδικοί τονίζουν ότι η ανθρώπινη εξειδίκευση παραμένει αναντικατάστατη — ιδιαίτερα σε τομείς που απαιτούν κρίση, δημιουργικότητα και πρακτικές δεξιότητες, όπως η ιατρική ή η μηχανική.
Ωστόσο, το ερώτημα παραμένει: αν η τεχνητή νοημοσύνη φτάσει να κατακτήσει το σύνολο της ανθρώπινης γνώσης, ποιο θα είναι το επόμενο όριο;

