Γιατί τα LLMs αποδίδουν καλύτερα στα Αγγλικά - Ποιοι είναι οι πιθανοί κίνδυνοι
Φανταστείτε έναν κόσμο όπου η κορυφαία ιατρική γνώση, η εξειδικευμένη εκπαίδευση και η τεχνική υποστήριξη είναι προσβάσιμες σε όλους, ανεξαρτήτως από το που ζουν ή ποια γλώσσα μιλούν. Αυτή είναι η μεγάλη υπόσχεση της παραγωγικής τεχνητής νοημοσύνης.
Παρόλα αυτά έρευνες δείχνουν ότι τα μεγάλα γλωσσικά μοντέλα (LLM), που χρησιμοποιούμε ευρέως στην καθημερινότητα μας, από την απλή συγγραφή ενός επαγγελματικού email, μέχρι την παροχή ιατρικών συμβουλών, απέχουν αρκετά από τον στόχο αυτό.
Σύμφωνα με άρθρο του economist, η απόδοση, η εγκυρότητα και η αξιοπιστία των απαντήσεων επηρεάζονται ακόμη από πολλούς περιορισμούς, με βασικότερο το γλωσσικό χάσμα.
Η σημασία της γλώσσας στο prompt
Παρά την ραγδαία αύξηση των δυνατοτήτων των Μεγάλων Γλωσσικών Μοντέλων (LLMs), όπως τα ChatGPT, Gemini και Claude, η απόδοσή τους διαφοροποιείται σημαντικά ανάλογα με τη γλώσσα στην οποία ο χρήστης υποβάλλει τη προτροπή (prompt), με τα αγγλικά να διατηρούν τη σαφή πρωτοκαθεδρία.
Σύμφωνα με την ανάλυση του Economist, μία αγγλόφωνη μητέρα που ρωτά τι πρέπει να κάνει για τα πρησμένα πόδια στα τελευταία στάδια της εγκυμοσύνης ενδέχεται να λάβει προειδοποίηση για πιθανή προεκλαμψία - μια συχνή επιπλοκή υπεύθυνη για περισσότερους από 70.000 μητρικούς θανάτους ετησίως, ενώ η ίδια ερώτηση διατυπωμένη στα σουαχίλι μπορεί να οδηγήσει σε μια πιο απλή απάντηση, όπως ότι δεν υπάρχει λόγος ανησυχίας.
Το παράδειγμα αυτό δεν είναι μεμονωμένο. Ακόμη και όταν μια αγγλόφωνη έκδοση ενός μοντέλου περνάει ένα τεστ ασφαλείας, μπορεί να παράγει «παραισθήσεις» (hallucinations) και επικίνδυνη παραπληροφόρηση σε άλλες γλώσσες, επειδή η κατανόηση και η επεξεργασία των ερωτημάτων δεν επιτυγχάνεται με την ίδια ακρίβεια, όπως στα αγγλικά.
Ερευνητικά δεδομένα για το γλωσσικό χάσμα
Έρευνα που δημοσιεύθηκε τον Οκτώβριο του 2025 επιβεβαιώνει ότι η ακρίβεια των LLMs σε μη αγγλικές γλώσσες μπορεί να είναι από 12 έως 29 ποσοστιαίες μονάδες χαμηλότερη σε σχέση με τη κυρίαρχη γλώσσα. Τα στοιχεία υπογραμμίζουν ότι ένα μοντέλο που απαντούσε σωστά στο 75% των αγγλικών ερωτημάτων, συγκέντρωνε μόλις 22,6% σε άλλη γλώσσα.
Παράλληλα, η διαπίστωση αυτή παρουσιάζεται εντονότερη όταν η χρήση των LLMs επεκτείνεται σε μη αγγλόφωνες περιοχές.
Για παράδειγμα, το φιλανθρωπικό ίδρυμα Gates και η OpenAI, ανακοίνωσαν χρηματοδότηση 50 εκατομμυρίων δολαρίων για την ανάπτυξη εργαλείων τεχνητής νοημοσύνης σε 1.000 κλινικές πρωτοβάθμιας υγείας σε όλη την Αφρική, συμπεριλαμβανομένης της διαλογής ασθενών και ιατρικών συμβουλών σε τοπικές γλώσσες. Εάν αυτά τα εργαλεία δεν γεφυρώσουν το γλωσσικό χάσμα, κινδυνεύουν να αποτύχουν στον σκοπό τους, παρέχοντας λανθασμένες συμβουλές σε τοπικές γλώσσες.
Για να μετρήσουν αυτό το χάσμα οι ερευνητές Tuka Alhanai (NYU Abu Dhabi) και Mohammad Ghassemi (Michigan State University) δημιούργησαν ένα "benchmark" (ένα τεστ για την ικανότητα των LLM να κατανοούν άλλες γλώσσες) που λειτούργησε ως σημείο αναφοράς. Συγκεκριμένα, η ομάδα εξέτασε την απόδοση των μοντέλων στη λογική και τις ιατρικές γνώσεις σε 11 αφρικανικές γλώσσες.
Τα αποτελέσματα κατέδειξαν ότι ακόμη και τα μοντέλα με την υψηλότερη βαθμολογία, το GPT-4o και το GPT-4 της OpenAI σημείωσαν 12 έως 20 ποσοστιαίες μονάδες χαμηλότερη βαθμολογία από ότι στα αγγλικά. Όπως σημειώνει η Δρ. Alhanai, έτσι θα απέδιδε ένα αγγλόφωνο μοντέλο πριν από πέντε χρόνια.
Αν και νεότερα μοντέλα, όπως το Gemini 2.0 Flash και το Claude 3.7 Sonnet, δείχνουν σημάδια βελτίωσης, ο Δρ. Ghassemi τονίζει ότι οι καλύτερες απαντήσεις εξακολουθούν να δίνονται στα αγγλικά. Η πρόοδος φαίνεται να έχει επιβραδυνθεί, με το GPT-5.2 να αποδίδει «γενικά στο ίδιο επίπεδο» με τους προκατόχους του στη γλωσσική διαφοροποίηση. Άλλες έρευνες έχουν δείξει ότι η απόδοση πέφτει όσο αυξάνεται η διαφορά μιας γλώσσας από τα αγγλικά.
Έτσι φαίνεται ότι κάθε LLM αντιμετωπίζει καλύτερα γλώσσες που είναι πιο κοντά στα αγγλικά, όπως τα ισπανικά και τα γαλλικά, από ότι τα ίγκμπο ή άλλες αφρικανικές γλώσσες.
Τι είναι τα LLMs και πώς λειτουργούν
Για να κατανοήσουμε το πρόβλημα, είναι απαραίτητο να ορίσουμε τι είναι αυτά τα συστήματα. Τα Μεγάλα Γλωσσικά Μοντέλα (LLMs) αποτελούν μια κατηγορία τεχνητής νοημοσύνης που βασίζεται στη βαθιά μάθηση και ειδικότερα στις αρχιτεκτονικές μετασχηματιστών (transformers). Το στάδιο της προεκπαιδευσής τους συντελείται με την “ανάγνωση” ενός τεράστιου όγκου γλωσσικών δεδομένων, όπως βιβλία, άρθρα και εκατομμύρια κείμενα από το διαδίκτυο, με σκοπό να "μάθουν" τα στατιστικά μοτίβα της ανθρώπινης γλώσσας και να παράγουν κείμενο που είναι συνεκτικό, γραμματικά σωστό και συχνά σημασιολογικά πλούσιο.
Καθώς τα LLMs συνεχίζουν να εξελίσσονται με ραγδαίους ρυθμούς, αποκτούν ολοένα και περισσότερες δυνατότητες για τη βελτίωση και την αυτοματοποίηση διαφόρων εφαρμογών σε ποικίλους κλάδους, από την εξυπηρέτηση πελατών και τη δημιουργία περιεχομένου έως την εκπαίδευση και την έρευνα. Παρ’ όλα αυτά, εγείρονται ερωτήματα σχετικά με το αν τα συστήματα αυτά επιδεικνύουν κάποιου είδους ευφυΐα και αν πραγματικά κατανοούν την ανθρώπινη γλώσσα.
Οι αιτίες του γλωσσικού χάσματος
Η ρίζα του προβλήματος βρίσκεται στον τρόπο εκπαίδευσης και λειτουργίας των LLMs:
- Δεδομένα Εκπαίδευσης: Η συντριπτική πλειονότητα των δεδομένων στο διαδίκτυο είναι στα αγγλικά. Ως αποτέλεσμα, τα μοντέλα αποκτούν μεγαλύτερη γλωσσική και εννοιολογική επάρκεια στα αγγλικά και αποδίδουν καλύτερα σε αυτή τη γλώσσα σε σύγκριση με άλλες.
- Tokenization (Τεμαχισμός Κειμένου): Πριν επεξεργαστούν το κείμενο, τα μοντέλα το διασπούν σε μικρές μονάδες (tokens). Επειδή τα περισσότερα συστήματα έχουν βελτιστοποιηθεί για τα αγγλικά, οι άλλες γλώσσες συχνά τεμαχίζονται λιγότερο αποδοτικά, απαιτώντας περισσότερα tokens για την ίδια πληροφορία. Αυτό αυξάνει και το κόστος χρήσης, καθώς η χρέωση βασίζεται στον αριθμό tokens. Για παράδειγμα, η πρώτη πρόταση της Οικουμενικής Διακήρυξης των Ανθρωπίνων Δικαιωμάτων μπορεί να απαιτεί 36 tokens στα αγγλικά, αλλά 47 στα Χίντι, 62 στα Μανδαρινικά και έως 132 στα Γιορούμπα, δηλαδή έως και πενταπλάσιο κόστος για το ίδιο περιεχόμενο.
- Εσωτερική Μετάφραση: Πολλά πολύγλωσσα μοντέλα λειτουργούν ανακτώντας πρώτα πληροφορίες στα αγγλικά και στη συνέχεια μεταφράζοντας την απάντηση στη γλώσσα του χρήστη. Έρευνες (π.χ. προδημοσίευση Μαΐου 2025 με το Llama-3.2-3B της Meta) δείχνουν ότι αυτή η ενδιάμεση διαδικασία εισάγει επιπλέον στάδια επεξεργασίας και αυξάνει την πιθανότητα σφαλμάτων, ακόμη και όταν το μοντέλο έχει εντοπίσει σωστά την πληροφορία στα αγγλικά.
- Η λύση του Code-Mixing: Ορισμένοι χρήστες προσπαθούν να βελτιώσουν την απόδοση συνδυάζοντας αγγλικά και μητρική γλώσσα στο ίδιο prompt. Ωστόσο, έρευνες δείχνουν ότι το code-mixing συχνά επιδεινώνει την απόδοση, επειδή δημιουργεί αντικρουόμενες εσωτερικές αναπαραστάσεις και αυξάνει τη γνωστική «σύγχυση» του μοντέλου.
- Ανισότητες στην απόδοση ανά γλώσσα: Οι παραπάνω παράγοντες οδηγούν σε σημαντικές διαφορές ακρίβειας μεταξύ γλωσσών. Μελέτες δείχνουν ότι σε γλώσσες όπως τα Μανδαρινικά, τα Ιαπωνικά και τα Κορεατικά τα μοντέλα πέτυχαν λιγότερο από το 25% σωστών πραγματικών απαντήσεων, ακόμη και όταν οι εσωτερικές αναπαραστάσεις τους υποδείκνυαν ότι είχε βρεθεί η σωστή αγγλική πληροφορία. Αντίθετα, σε αντίστοιχες ερωτήσεις στα αγγλικά το ίδιο μοντέλο απαντούσε σωστά πάνω από τις μισές φορές.
Αν και γίνονται προσπάθειες βελτίωσης (π.χ. fine-tuning με δεδομένα υψηλής ποιότητας σε άλλες γλώσσες, open-access datasets από την Google), το γλωσσικό «κενό» παραμένει αισθητό και όπως επισημαίνει και η Δρ. Alhanai, η τρέχουσα κατάσταση κρύβει μια ειρωνεία: «Οι άνθρωποι που έχουν τα περισσότερα να κερδίσουν [από αυτά τα εργαλεία] είναι οι λιγότερο ικανοί να τα χρησιμοποιήσουν».
Σε κοινότητες με γεωγραφική απομόνωση ή γλωσσικά εμπόδια, όπου η πρόσβαση σε γιατρούς και αξιόπιστη ιατρική ενημέρωση είναι περιορισμένη, εργαλεία όπως το ChatGPT μπορούν να λειτουργήσουν ως μια πρώτη πηγή ενημέρωσης και καθοδήγησης. Μέχρι να γεφυρωθεί αυτό το χάσμα, η χρήση των LLMs για κρίσιμα ζητήματα, όπως η υγεία, σε γλώσσες πέραν των αγγλικών, πρέπει να γίνεται με εξαιρετική προσοχή.