Il 20 dicembre 2023 il database di immagini LAION-5B viene frettolosamente rimosso da internet: un’indagine della Stanford Internet Observatory, analizzando miliardi fra le immagini da esso indicizzate, ha rinvenuto numerose istanze di materiale pedopornografico. La scoperta, di per sé di grande momento, è resa particolarmente grave dal fatto che i database LAION sono fra i più utilizzati nell’addestramento di modelli di visione automatica e generazione di immagini, fra cui Imagen di Google (che ha utilizzato un database precedente a quello incriminato), Midjourney e soprattutto Stable Diffusion. Il fatto che il celebre modello di Stability.ai (che ha dichiarato che soltanto una porzione di LAION-5B è stata effettivamente utilizzata) sia frutto di addestramento su insiemi di dati che potenzialmente contengono immagini di questo tipo diviene poi ragione di preoccupazioni per quanti, a partire da Stable Diffusion, hanno sviluppato e diffuso modelli derivati: tutti potrebbero essere utilizzati da malintenzionati per generare immagini di natura pedopornografica, o generarla involontariamente.
Ad oggi LAION-5B è ancora sotto revisione, e l’accaduto solleva numerose incognite sullo statuto legale – e morale – dell’addestramento e del possesso di modelli che, seppur non contenenti materiale pedopornografico, potrebbero contenerlo in una forma trasformata ed invocabile; ma soprattutto mostra, per l’ennesima volta, quanto manchevoli di scrutinio e adeguata selezione siano le procedure odierne di raccolta dati. E quanto drastiche possano essere le conseguenze di tali procedure. D’altronde, poco più di un anno prima nello stesso database erano state trovate numerose immagini di natura medica apparentemente diffuse senza autorizzazione dei soggetti. Dal momento che LAION-5B non contiene effettivamente immagini, bensì collegamenti ipertestuali ad immagini, e che quindi utilizzarlo significa semplicemente scaricare selettivamente quelle risorse da diverse fonti su internet, l’organizzazione non deve né può direttamente rimuovere le immagini dalla rete, può semplicemente deindicizzarle dai suoi database. Questa pratica snellisce di molto i costi operativi dell’organizzazione e la tutela da accuse di detenzione di materiale illecito, e ha poi come conseguenza che un’analisi a posteriori del database non riesca a recuperare tutte le immagini presenti in passato al suo interno. Nella ricerca della Stanford, ad esempio, circa un terzo dei link non erano più funzionanti, e non è stato possibile consultare un gran numero di immagini.
Le ragioni di simili scandali non sono poi difficili da individuare, perché risiedono nell’approccio automatico alla raccolta dei dati di addestramento che con enorme frequenza si incontra nell’industria dell’IA da tempo; un approccio che continua ad essere preferito in virtù della sua rapidità di esecuzione e dei suoi costi relativamente contenuti, nonché della radicata idea che i dati siano intrinsecamente preziosi e che un loro incremento quantitativo può controbilanciare qualunque perdita. Mentre nelle decadi passate una simile posizione era sostenuta dall’effettiva scarsità di dati digitali e dalla difficoltà nel procurarseli, col tempo la sostanza dell’argomentazione è divenuta ben più astratta, ed oggi le basi di dati godono di un’aura di intrinseco valore conoscitivo, che oscura le dinamiche del loro reperimento. Anche la ricerca scientifica sull’apprendimento automatico è incentrata su incrementi delle prestazioni mediati da modelli sempre più grandi, alimentati a loro volta da basi di dati ancora più ingombranti. La raccolta di dati per l’apprendimento automatico viene effettuata in maniera indiscriminata coinvolgendo – oltre a materiale illecito e a possibili vettori di vulnerabilità- produzioni protette da diritti d’autore, minando l’autonomia di numerose figure professionali dell’industria creativa e, al contempo, esponendo il fianco alle loro contromisure.
I modelli generativi odierni non permettono soltanto di accedere a variazioni stilistiche o a compendi delle informazioni nei dati di addestramento, ma sono in grado, se adeguatamente interrogati, di restituire delle copie quasi identiche di parte di quei dati, talvolta riportandone verbatim i contenuti. In qualunque altro ambito di produzione culturale simili elaborazioni sarebbero considerate plagio, ma in questo caso non è ancora chiaro quale sia la legalità delle operazioni di addestramento su materiale coperto da diritti d’autore, e la limitata ispezionabilità sia delle basi di dati che dei modelli stessi ostacola ancora di più la definizione di un ambito di responsabilità.
Intanto aumentano le pressioni contro le compagnie e le organizzazioni che distribuiscono modelli generativi o servizi ad essi associati: nel 2023 il New York Times ha fatto causa ad OpenAI per violazione di diritto d’autore, sostenendo che i modelli della società siano stati addestrati con articoli del giornale ottenuti senza permesso; Universal Music ha fatto causa ad Anthropic per via della diffusione non autorizzata di testi di canzoni tramite i suoi modelli linguistici; Stability.ai è accusata di violazione di copyright da Getty Images ed è oggetto di una class action da parte di un gruppo di artisti statunitensi. La mole di contenuti protetti da diritti d’autore in tutti questi casi è davvero notevole e, per quanto gli sviluppatori dei modelli si sforzino di limitarne l’accesso agli utenti, tattiche sempre nuove o il semplice caso li rendono comunque disponibili. È difficile immaginare la risoluzione di queste controversie in una forma radicalmente diversa da quella attualmente praticata, fra gli altri, dalle piattaforme di streaming, ossia tramite licenze di utilizzo dei contenuti di terzi; d’altra parte, non soltanto i costi e la quantità di materiale da sottoporre a licenza sarebbero entrambi esorbitanti, ma ad oggi pare impossibile anche solo stabilire quali siano o non siano i contenuti incriminati. Anche in vista di queste problematiche, esistono già oggi modelli originati puramente da basi di dati con opportune licenze di utilizzo, ma OpenAI ha deciso di forzare la mano e sta tentando di convincere i legislatori di tutto il mondo che il suo sia un servizio radicalmente diverso dagli altri, che merita un’esenzione totale dalle leggi tipicamente vigenti in materia di diritti d’autore. Si può speculare che la recente rimozione, nelle policy di OpenAI, degli utilizzi a scopo militare fra gli ambiti d’uso vietati faccia parte di questa strategia di framing dei modelli della compagnia come parti di un servizio essenziale.
E mentre OpenAI lusinga la difesa c’è chi sta passando all’attacco, sfruttando le vulnerabilità aperte dalla raccolta non supervisionata dei dati per corrompere i dati di addestramento e, con loro, i modelli. Il Glaze Project dell’Università di Chicago, dopo aver diffuso un software (Glaze) che permette agli artisti di modificare le loro immagini in modo impercettibile all’occhio umano ma significativo per una IA, e tutelandoli così dalla mimesi del loro stile da parte dei modelli, ha ora rilasciato un nuovo programma, chiamato Nightshade: in questo caso le modifiche alle immagini non sono mirate a evitare che il modello copi un dato stile, ma ne ledono globalmente le capacità introducendo elementi discordanti con il contenuto effettivo delle immagini. Una tattica a cui avevamo accennato nella scorsa newsletter e che viene giustamente chiamata “data poisoning”, perché l’utilizzo di immagini così trattate in fase di addestramento porta a modelli evidentemente difettosi già con un numero limitato di immagini “avvelenate”.
Nonostante la loro enorme fortuna ed il loro potenziale trasformativo, i modelli di IA generativa odierna sono il frutto di queste immense basi di dati non adeguatamente scrutinate, e risentono di tutte le scelte nefaste fatte in sede di selezione; e a poco valgono gli interventi successivi all’addestramento, perché la loro influenza è solo parziale e non elimina precisamente le informazioni apprese in precedenza, limitandosi a nasconderle o a censurarle. Da questo punto di vista, molti modelli utilizzati oggi sono “compromessi”. E tutti i modelli futuri dovranno esser sviluppati con la consapevolezza che nelle foreste dei dati si aggirano mostri di ogni specie.
Scritto da Dario Chianese, Phd Student @ University of Naples “Federico II” (Game of Tech)