Πώς μαθαίνει για εμάς η Τεχνητή Νοημοσύνη; Οι μυστικές λίστες με τις ιστοσελίδες

Οι εταιρείες τεχνολογίας δεν αποκαλύπτουν με τι τροφοδοτούν τα συστήματα Τεχνητής Νοημοσύνης. H Washington Post αποκαλύπτει τις ιστοσελίδες που «παρακολουθούν» τα chatbot.

Τα συστήματα Τεχνητής Νοημοσύνης δεν σκέφτονται όπως οι άνθρωποι. Στην πραγματικότητα δεν καταλαβαίνουν καν τι λένε. Μπορούν να μιμηθούν τον ανθρώπινο λόγο επειδή η Τεχνητή Νοημοσύνη που τα τροφοδοτεί, «διαβάζει» έναν τεράστιο όγκο κειμένων, αναρτημένων ως επί το πλείστον στο Διαδίκτυο.

Αυτά τα κείμενα είναι η βασική πηγή πληροφοριών των ΑΙ για τον κόσμο, και επηρεάζουν τον τρόπο που απαντούν στους χρήστες. Για παράδειγμα, το γεγονός πως αριστεύουν σε εξετάσεις για νομικούς, οφείλεται στο ότι χιλιάδες σελίδες προετοιμασίας για τις εξετάσεις, περιλαμβάνονται στα δεδομένα εκμάθησης Α.Ι.

Οι τεχνολογικές εταιρείες δεν αποκαλύπτουν με τι υλικό τροφοδοτούν τα συστήματα Τεχνητής Νοημοσύνης, αλλά η Washington Post αποκαλύπτει τώρα ένα από αυτά τα σύνολα δεδομένων, αναφέροντας τις ιστοσελίδες που «παρακολουθούν» τα chatbot.

H WP ανέλυσε το σύνολο δεδομένων C4 της Google, μία τεράστια βιβλιοθήκη περιεχομένου, με στιγμιότυπα από 15 εκατομμύρια ιστοτόπους που έχουν χρησιμοποιηθεί για την εκμάθηση ορισμένων από τα πιο σημαντικά σημαντικά συστήματα τεχνητής νοημοσύνης στα αγγλικά, όπως το T5 της Google και το LLaMA του Facebook.

Η OpenAI δεν αποκαλύπτει ποια σύνολα δεδομένων χρησιμοποιεί για να εκπαιδεύσει τα μοντέλα Τεχνητής Νοημοσύνης που υποστηρίζουν το δημοφιλές chatbot της, ChatGPT.

Περίπου το ένα τρίτο των ιστότοπων δεν μπόρεσε να κατηγοριοποιηθεί, επειδή δεν εμφανίζονταν πλέον στο διαδίκτυο. Όπως τονίζει η αμερικανική εφημερίδα, προσωπικές και συχνά προσβλητικές πληροφορίες εισάγονται στα δεδομένα εκπαίδευσης συστημάτων Α.Ι.

Από τη Wikipedia έως τα διπλώματα ευρεσιτεχνίας

Μεταξύ των αναρίθμητων ιστοτόπων πάνω στους οποίους εκπαιδεύονται τα συστήματα Α.Ι., κυριαρχούν δημοσιογραφικές και ψυχαγωγικές ιστοσελίδες, και πλατφόρμες δημιουργίας περιεχομένου. Αυτό εξηγεί εν μέρει γιατί αυτοί ακριβώς οι κλάδοι ενδέχεται να απειληθούν από την άνοδο της Τεχνητής Νοημοσύνης.

Οι τρεις μεγαλύτερες διαδικτυακές τοποθεσίες για την μηχανική εκμάθηση των Α.Ι., είναι η patents.google.com (στην πρώτη θέση), με κείμενα από διπλώματα ευρεσιτεχνίας σε όλο τον κόσμο, η ηλεκτρονική εγκυκλοπαίδεια Wikipedia.org (Νο. 2), και το Scribd.com (Νο. 3), μια ψηφιακή, συνδρομητική βιβλιοθήκη.

Ψηλά στη λίστα είναι και το b-ok.org (στο Νο 190), ένας «πειρατικός» ιστότοπος ηλεκτρονικών βιβλίων που επιχείρησε να κλείσει το Υπουργείο Δικαιοσύνης των ΗΠΑ.

Στο σύνολο της «εκπαιδευτικής» βάσης δεδομένων υπήρχαν τουλάχιστον άλλες 27 τοποθεσίες που έχουν αναγνωριστεί από την κυβέρνηση των ΗΠΑ ως ηλεκτρονικές αγορές «πειρατείας και απομιμήσεων».

Κάποιες από τις κορυφαίες θέσεις στη λίστα, καταλαμβάνονται από φαινομενικά «αυθαίρετες» επιλογές, όπως ο ιστότοπος wowhead.com (Νο. 181), ένα φόρουμ παικτών του World of Warcraft, το thriveglobal.com (Νο. 175), μία σελίδα για την αντιμετώπιση της επαγγελματικής εξουθένωσης που ιδρύθηκε από την Αριάνα Χάφινγκτον, και τουλάχιστον δέκα σελίδες που πωλούν κάδους απορριμμάτων, συμπεριλαμβανομένης της dumpsteroid.com στο Νο183.

Άλλες επιλογές εγείρουν ερωτήματα για την προστασία της ιδιωτικότητας. Δύο ιστότοποι στην πρώτη 100άδα, η coloradovoters.info (Νο. 40) και η flvoters.com (Νο. 73), διέθεταν αντίγραφα των κρατικών βάσεων δεδομένων για τους ψηφοφόρους. Αν και τα δεδομένα αυτά είναι δημόσια, τα μοντέλα τεχνητής νοημοσύνης θα μπορούσαν να χρησιμοποιήσουν αυτές τις πληροφορίες με απρόβλεπτους τρόπους.

Περιεχόμενο χωρίς συγκατάθεση

Οι επιχειρηματικοί και βιομηχανικοί ιστότοποι ήταν οι περισσότεροι (16%), με κορυφαίο το fool.com (Νο. 13), που παρέχει επενδυτικές συμβουλές. Λίγες θέσεις παρακάτω φιγουράρει το kickstarter.com (Νο. 25), που επιτρέπει στους χρήστες να συγκεντρώσουν κεφάλαια από άλλους χρήστες, για προσωπικά εγχειρήματα και έργα. Στη λίστα περιλαμβάνεται και το patreon.com (Νο. 2.398), το οποίο βοηθά τους δημιουργούς να εισπράττουν σε μηνιαία βάση χρήματα, από συνδρομητές, για αποκλειστικό περιεχόμενο.

Μέσω του Kickstarter και του Patreon, η Τεχνητή Νοημοσύνη μπορεί να αποκτά πρόσβαση σε ιδέες και προωθητικά έργα καλλιτεχνών, εγείροντας ανησυχίες για λογοκλοπή και αντιγραφή έργων, σε προτάσεις των Α.Ι. προς τους χρήστες. Επί του παρόντος, οι καλλιτέχνες δεν λαμβάνουν καμία αποζημίωση ή αμοιβή όταν το έργο τους περιλαμβάνεται στα δεδομένα εκπαίδευσης της Τεχνητής Νοημοσύνης και έχουν καταθέσει αγωγές για παραβίαση πνευματικών δικαιωμάτων κατά των εταιρειών Stable Diffusion, MidJourney και DeviantArt που παράγουν εικόνες από γραπτές περιγραφές.

Όλες οι ειδήσεις

Οι ειδήσεις και τα ΜΜΕ γενικότερα είναι η τρίτη μεγαλύτερη κατηγορία στις βάσεις εκπαίδευσης των Α.Ι. Μάλιστα οι μισοί από τους δέκα κορυφαίους ιστοτόπους «εκμάθησης», ήταν σελίδες ειδησεογραφικών πρακτορείων. Οι New York Times (Νο. 4), οι Los Angeles Times (Νο.6), o Guardian (Νο.7), το Forbes (Νο.8) και η Huffington Post (No.9).

Όπως οι καλλιτέχνες και οι δημιουργοί περιεχομένου, έτσι και ορισμένοι ειδησεογραφικοί οργανισμοί επικρίνουν τις τεχνολογικές εταιρείες για τη χρήση του περιεχομένου τους χωρίς άδεια ή αποζημίωση.

Αρκετά μέσα ενημέρωσης σε αυτές τις λίστες, που κατατάσσονται χαμηλά στην ανεξάρτητη κλίμακα αξιοπιστίας της NewsGuard: το RT.com (Νο. 65), ο ιστότοπος προπαγάνδας που υποστηρίζεται από το ρωσικό κράτος, το breitbart.com (Νο. 159), σελίδα που απηχεί ακροδεξιές απόψεις, και το vdare.com (Νο. 993), ένας ιστότοπος κατά της μετανάστευσης που έχει συνδεθεί με ρατσιστικές θεωρίες.

Επανειλημμένα, τα chatbots μοιράζονται ανεμπόδιστα λανθασμένες πληροφορίες, και δεν παραπέμπουν πάντα σε πηγές. Αναξιόπιστα δεδομένα εκπαίδευσης θα μπορούσαν να οδηγήσουν στη διάδοση προκαταλήψεων, προπαγάνδας και παραπληροφόρησης – χωρίς ο χρήστης να μπορεί να εντοπίσει την πηγή των πληροφοριών.

Θρησκευτικές ιστοσελίδες αντικατοπτρίζουν μία «δυτική» οπτική γωνία

Ιστότοποι κοινοτήτων αποτελούσαν το 5% του περιεχομένου, με τη θρησκεία να κυριαρχεί σε αυτή την κατηγορία. Μεταξύ των 20 κορυφαίων θρησκευτικών ιστότοπων, 14 ήταν χριστιανικοί, δύο ήταν εβραϊκοί και ένας μουσουλμανικός. Ένας αφορούσε στους Μορμόνους, ένας τους Μάρτυρες του Ιεχωβά και ένας είχε αναφορές σε όλες τις θρησκείες.

Ο χριστιανικός ιστότοπος, Grace to You (No. 164), ανήκει στην εκκλησιαστική κοινότητα Grace, μια εκκλησία ευαγγελικών στην Καλιφόρνια. Το Christianity Today είχε μεταδώσει πρόσφατα ότι η εκκλησία συμβούλευε τις γυναίκες να «συνεχίσουν να υποτάσσονται» σε βίαιους πατέρες και συζύγους και να αποφεύγουν να τους καταγγέλλουν στις αρχές.

Στην υψηλότερη θέση των εβραϊκών ιστότοπων ήταν το jewishworldreview.com (Νο. 366), ένα διαδικτυακό περιοδικό για Εβραίους. Τον Δεκέμβριο δημοσίευσε ένα άρθρο για τη Χάνουκα, και απέδιδε την άνοδο του αντισημιτισμού στις ΗΠΑ «στο ακροδεξιό, φονταμενταλιστικό Ισλάμ», καθώς και σε «μια αφροαμερικανική κοινότητα που επηρεάζεται από το κίνημα Black Lives Matter».

Η αντιμουσουλμανική προκατάληψη αποτελεί πρόβλημα σε ορισμένα γλωσσικά μοντέλα, σημειώνει η Washington Post. Για παράδειγμα, μια μελέτη που δημοσιεύθηκε στο περιοδικό Nature διαπίστωσε ότι στο 66% των περιπτώσεων, το ChatGPT-3 της OpenAI συμπλήρωνε τη φράση «Δύο μουσουλμάνοι μπαίνουν σε…» με φράσεις για βίαιες ενέργειες.

Ένας «θησαυρός» προσωπικών blog

Η τεχνολογία είναι η δεύτερη μεγαλύτερη κατηγορία, και συνδέεται με 15% των ιστοτόπων πάνω στα οποία εκπαιδεύονται Α.Ι. Σε αυτή την λίστα βρίσκονται πολλές πλατφόρμες για τη δημιουργία ιστοσελίδων, όπως η sites.google.com (Νο. 85), η οποία φιλοξενεί σελίδες «για τα πάντα», από ένα κλαμπ τζούντο στο Ρέντινγκ της Αγγλίας μέχρι ένα καθολικό νηπιαγωγείο στο Νιου Τζέρσεϊ.

Η βάση δεδομένων περιέχει πάνω από μισό εκατομμύριο προσωπικά ιστολόγια. Η εκδοτική πλατφόρμα medium.com (Νο 46) ήταν ο πέμπτος μεγαλύτερος τεχνολογικός ιστότοπος και φιλοξενεί δεκάδες χιλιάδες blog στη διεύθυνσή της. Στις λίστες βρίσκονται και ιστολόγια γραμμένα σε πλατφόρμες όπως το WordPress, το Tumblr, το Blogspot και το Live Journal.

Ένα από τα ιστολόγια πολύ ψηλά στη λίστα, προσέφερε συμβουλές για «παιχνίδια ρόλων». Ένας άλλος ιστότοπος, το Uprooted Palestinians, γράφει συχνά για «σιωνιστική τρομοκρατία» και τη «σιωνιστική ιδεολογία».

Κοινωνικά δίκτυα όπως το Facebook και το Twitter – στην «καρδιά» του σύγχρονου διαδικτύου – απαγορεύουν την «παρακολούθηση», και οι περισσότερες βάσεις δεδομένων για την εκπαίδευση της τεχνητής νοημοσύνης δεν έχουν πρόσβαση σε αυτές τις πλατφόρμες.

Τεχνολογικοί γίγαντες όπως το Facebook και η Google, που διαθέτουν τεράστιους όγκους δεδομένων από συνομιλίες, δεν έχουν ξεκάθαρη στάση για το πώς οι προσωπικές πληροφορίες των χρηστών ενδέχεται να χρησιμοποιηθούν για την εκπαίδευση μοντέλων AI, αν αξιοποιούνται εσωτερικά ή αν πωλούνται ως προϊόντα.

Τι ξεφεύγει από τα φίλτρα

Όπως οι περισσότερες εταιρείες, η Google φιλτράρει σε μεγάλο βαθμό τα δεδομένα πριν τα τροφοδοτήσει σε συστήματα Τεχνητής Νοημοσύνης. Εκτός από το κόψιμο των ασυναρτησιών και των διπλοεγγραφών, η εταιρεία χρησιμοποίησε τον «Κατάλογο βρώμικων, άσεμνων και κακών λέξεων», ο οποίος περιλαμβάνει 402 όρους στα αγγλικά και ένα emoji (ένα χέρι που κάνει μια κοινή αλλά άσεμνη χειρονομία).

Τέτοιες λίστες αποκλεισμού, στοχεύουν στον περιορισμό της έκθεσης ενός Α.Ι σε ρατσιστικές προσβολές και χυδαιολογίες κατά την εκπαίδευσή του. Ωστόσο, έχει επίσης αποδειχθεί ότι εξαλείφει και μη σεξουαλικό περιεχόμενο για ΛΟΑΤΚΙ.

Πολλές σελίδες ξεφεύγουν από τα φίλτρα και η Washington Post βρήκε εκατοντάδες πορνογραφικές ιστοσελίδες και περισσότερες από 72.000 περιπτώσεις αναφοράς σε σβάστικα, παρότι είναι από τους απαγορευμένους όρους.

Εν τω μεταξύ, η WP διαπίστωσε ότι τα φίλτρα απέτυχαν στην περίπτωση του ρατσιστικού ιστότοπου stormfront.org (Νο. 27.505), του αντι-τρανς ιστότοπου kiwifarms.net (Νο. 378.986) και του 4chan.org (Νο. 4.339.889), της πλατφόρμας ανάρτησης ανώνυμων μηνυμάτων που είναι γνωστός για τον συντονισμό στοχευμένων εκστρατειών παρενόχλησης ατόμων.

Το threepercentpatriots.com (No. 8.788.836) είναι ένας απενεργοποιημένος πλέον ιστότοπος, που προωθούσε αντικυβερνητική ιδεολογία, την οποία διέδιδαν κατηγορούμενοι για την επίθεση στο Καπιτώλιο στις 6 Ιανουαρίου 2021. Ιστότοποι που προωθούν θεωρίες συνωμοσίας, συμπεριλαμβανομένου του QAnon και του “pizzagate”, του ψευδούς ισχυρισμού ότι μια πιτσαρία της Ουάσινγκτον ήταν «βιτρίνα» για παιδόφιλους, βρέθηκαν επίσης στη λίστα «εκμάθησης» των Α.Ι.

Πηγή: Washington Post

Πηγή: kathimerini.gr