Articoli
Che cosa c’entrano gli amanuensi con le GenAI? Ovvero, dalla penna d’oca all’oca con la penna
Il manoscritto originale della Divina Commedia è perduto. Il testo che leggiamo è stato ricostruito dai filologi, che hanno esaminato le oltre 800 copie manoscritte.
Le copie derivano da copie. Ogni copia contiene errori, alcuni, gli errori guida, non possono essere corretti per congettura dall’amanuense. Si chiamano congiuntivi gli errori guida che dimostrano che la copia A deriva da B. Per esempio, se in B mancano due versi, in A mancano quei versi (l’amanuense non se li poteva inventare). Si chiamano separativi gli errori guida che dimostrano che la copia A non deriva da B. Se in B mancano due versi e in A ci sono, A non deriva da B, ma da un altra copia priva di quell’errore.
La filologia o, meglio, la branca della filologia chiamata ecdotica compie una specie reverse engineering del testo: di errore in errore, di figlio in padre, di padre in zio e di zio in prozio, costruisce lo stemma ecdotico, una specie di albero genealogico delle copie e giunge al testo voluto da Dante, con qualche dubbio, ma insomma.
Un caso particolare di copiatura è la cosiddetta contaminazione. L’amanuense di A copiava non solo da B ma anche da C, D ecc. Se B era illeggibile, l’amanuense copiava da C, o da D se il testo di C non gli piaceva.
La risposta delle GenAI è prodotta per contaminazione. Non nel senso che è una copia (a volte lo è) ma nel senso che ha più fonti, dalle quali la GenAI sceglie la parola che più probabilmente segue la precedente (Next Token Predictor). Data la parola A, la GenAI sceglie la parola B dalla fonte x, poi mette la parola C dalla fonte y.
Il risultato è quasi sempre un testo corretto dal punto di vista grammaticale, filante quanto al senso, seducente quanto alla tentazione di servirsene paro paro, però non sempre privo di errori.
Alcuni errori, i falsi positivi, sono visibili a chi conosce bene la materia, altri sono invisibili, i falsi negativi.
Allucinazioni sono stati chiamari i falsi positivi più clamorosi.
Le allucinazioni, in senso proprio, sono percezioni di qualcosa che non esiste.
“Iste homo copiosissime deliravit” (Quest’uomo ha delirato molto abbondantemente) disse di Dante il severissimo domenicano Guido Vernani, suo contemporaneo.
Chiamare allucinazione un errore ci induce a pensare che la GenAI si sia inventata qualcosa che non esiste, per una sorta di anomalia imprevista e imprevedibile. Non è così: le GenAI non inventano niente (caso mai siamo noi a dire che si sono inventate qualcosa).
Qualsiasi contenuto nelle risposte delle GenAI fa parte dei contenuti del dataset. I quali, provenendo massimamente dal web, non è che siano fonti di rango tanto alto, diciamo al massimo terziario. Le fonti terziarie o peggio tengono insieme argomenti molto diversi, contengono generalizzazioni approssimative, semplificazioni banalizzanti, esemplificazioni fuorvianti ed errori anche grossolani che non troveremmo facilmente nelle fonti secondarie e men che meno in quelle primarie.
Pertanto:
- gli errori stanno nelle fonti, oppure
- sono frutto di un’elaborazione errata delle fonti, cioè è sbagliata la previsione del next token.
Nel primo caso le GenAI non inventano. Nel secondo non impazziscono. Non solo perché l’errore statistico va postulato, ma anche per un altro meccanismo. Nelle fonti di rango basso, si parla di pere e mele per dire (poniamo) che i bachi delle pere non vivono nelle mele. Se pere compare dieci volte e mele due, è ben possibile che la GenAI scriva che i bachi delle mele non vivono nelle pere. La fonte era corretta, ma la sua lettura no.
Pertanto, gli errori che dalle fonti si riverberano nella risposta sono errori congiuntivi, mentre gli errori introdotti dalle GenAI per difetto di lettura sono errori che fanno della risposta un testo che contiene un errore separativo rispetto alla fonte corretta.
Le GenAI sono fonti per noi esattamente come la copia di un amanuense è una fonte per il filologo: mai fidarsi prima di avere molto ben verificato.
L’unica differenza è che le GenAI non sono amanuensi.
Tutto il resto è già avvenuto nella scrittura. Cambia solo la tecnologia. Prima c’era la penna d’oca, ora c’è l’oca con la penna.
