L’Autore cerca scampo dalle macchine voraci

La bibliofagia è una piaga che affligge le società umane da millenni. Se si escludono incendi e allagamenti, la maggiore minaccia all’integrità delle grandi raccolte di libri, come biblioteche e archivi, è costituita dai parassiti, ad esempio tarli, ratti e pesciolini d’argento o dalle muffe, che consumano lentamente i supporti dove abbiamo registrato le nostre acquisizioni intellettuali, i nostri pensieri e le nostre storie.

Una notizia apparsa poche settimane fa sul quotidiano statunitense Washington Post ha portato all’attenzione del pubblico l’esistenza di un nuovo voracissimo divoratore di libri, che minaccia non solo la loro integrità fisica ma quella dei diritti autoriali associati: l’intelligenza artificiale.

Progetto Panama

Nel 2024, l’azienda californiana Anthropic avrebbe avviato in segreto il “Progetto Panama”, che prevedeva di addestrare i suoi modelli linguistici anche tramite la scansione distruttiva di una un’enorme quantità di libri, forse milioni di volumi.

In pratica, pare che Anthropic abbia comprato soprattutto libri usati, dai quali rimuoveva i dorsi e poi staccava le pagine per poterle scansionare più velocemente. La pubblicizzazione del “Progetto Panama” è stata fonte di imbarazzo per i fratelli Amodei, fondatori dell’azienda, che avevano fatto della trasparenza e dell’eticità motivi di differenziazione del loro approccio all’IA rispetto a quello dei concorrenti.

Causa collettiva in USA

La questione del “Progetto Panama” è emersa nell’ambito di una storia più vasta che ha coinvolto l’azienda produttrice dei modelli “Claude”. I giornalisti del Washington Post hanno ricostruito quella vicenda studiando le carte processuali di una causa promossa di fronte a una Corte Federale statunitense, conclusasi nel giugno 2025, nella quale alcuni scrittori – Andrea Bartz, Charles Graeber e Kirk Wallace Johnson – accusavano Anthropic di violazione del diritto d’autore per avere usato alcuni loro testi, senza il loro permesso, allo scopo di addestrare i suoi modelli linguistici.

La Corte ha stabilito che l’impiego di saggi, romanzi o racconti per l’attività di addestramento dei modelli linguistici di Anthropic, avvenuto senza il consenso degli autori, è qualificabile come “uso lecito” (fair use, in inglese). Trovate il testo della sentenza qui.

L’ “uso lecito” delle opere protette da diritto d’autore è una dottrina giuridica anglosassone, ma che trova corrispettivi anche negli ordinamenti di diversa tradizione, che stabilisce le condizioni in cui sia possibile utilizzare opere protette da diritto d’autore, senza il preventivo consenso del titolare.

Nel caso di specie, la Corte statunitense ha stabilito che l’uso fatto da Anthropic dei libri dei tre scrittori era stato “estremamente trasformativo” e l’ha paragonato a quello di un “lettore che aspira a diventare scrittore” e che utilizza le opere altrui non per replicarle o prendere scorciatoie ma per “superare un ostacolo difficile e creare qualcosa di diverso”.

Anthropic è stata tuttavia costretta a transare una cifra enorme – 1,5 miliardi di dollari – per avere creato una “biblioteca centrale” contenente milioni di libri piratati scaricati illecitamente da internet.

E in Europa?

Sul tema dell’utilizzo di opere protette da diritto d’autore per l’addestramento di modelli di IA non esiste per ora giurisprudenza della Corte di Giustizia dell’Unione Europea, ma diversi casi che si stanno litigando nelle Corti dei Paesi membri possono fornirci indicazioni di massima sul tema.

Come ben sa chi segue la nostra newsletter, un paio di anni fa è entrato in vigore il “Regolamento Europeo sull’Intelligenza Artificiale”, noto anche come “AI Act” (Reg. UE 2024/1689), che stabilisce obblighi di trasparenza per le aziende sviluppatrici di modelli generativi, quale quello di documentare le fonti da cui esse hanno prelevato i dati utilizzati per l’addestramento. Questi obblighi potrebbero consentire ai titolari di diritto d’autore di sapere se le proprie opere sono state sfruttate durante lo sviluppo di modelli di IA e verificare eventuali usi illeciti.

Inoltre, il Parlamento Europeo ha anche promulgato la “Direttiva sul diritto d’autore nel mercato unico digitale” (o Direttiva 2019/790) che prevede eccezioni alla tutela autoriale per l’uso di tecnologie di estrazione di testo e di dati (in inglese, text and data mining). La Direttiva definisce l’estrazione di testo e di dati come “qualsiasi tecnica di analisi automatizzata volta ad analizzare testi e dati in formato digitale avente lo scopo di generare informazioni inclusi, a titolo non esaustivo, modelli, tendenze e correlazioni”.

In questo contesto, si è pronunciata di recente l’Alta Corte Regionale di Monaco di Baviera, in un caso indicativo di come potrebbe svilupparsi il rapporto tra diritto d’autore e addestramento di modelli generativi nella nostra Unione (trovate una sintesi del caso qui.

La causa ha visto affrontarsi GEMA – più o meno l’equivalente tedesco della nostra SIAE – e OpenAI, i famosi sviluppatori di ChatGPT. GEMA rappresentava nove autori tedeschi che accusavano OpenAI di avere violato i loro diritti di esclusiva sui testi di alcuni brani musicali “incorporati” nei propri modelli genativi.

L’Alta Corte di Monaco ha affrontato la questione suddividendo in tre fasi il “ciclo vitale” di un modello generativo: una fase di progetto, nella quale si raccolgono i dati per l’addestramento, una fase di sviluppo, in cui si analizzano i dati e li si usano per l’addestramento e una fase di rilascio del modello.

Di per sé, le attività svolte nella fase di progetto rientrano nelle eccezioni della Direttiva sopra richiamate, in quanto la raccolta dei dati – nel caso di specie, i testi delle canzoni – è meramente prodromica alle attività di analisi necessarie allo sviluppo dei modelli.

Tuttavia, la Corte monacense ritiene illecita la memorizzazione dei dati raccolti all’interno del modello generativo, durante la fase di sviluppo. Infatti, la memorizzazione dei testi nei modelli di OpenAI, anche se concretizzata nell’incorporazione di un insieme di valori probabilistici, costituisce una riproduzione non autorizzata di quei testi, in particolare non coperta dalle suddette eccezioni sull’estrazione di testo e di dati. In dettaglio, il fatto che i modelli riproducessero i testi delle canzoni a seguito dell’ingresso di semplici richieste da parte degli utenti (prompt, in inglese), prova che tali testi erano memorizzati, anche se latu sensu, all’interno dei modelli medesimi. Ovviamente, ciò implica anche una violazione dei diritti d’autore durante la fase finale di rilascio dei modelli, commessa solo dall’azienda sviluppatrice e non attribuibile agli utenti.