Il mito dell’oracolo e la verità degli LLM


Circa un paio di anni fa seguivo con attenzione quasi ossessiva l’uscita dei nuovi modelli LLM.

Lo faccio ancora oggi, ma allora era diverso: ogni nuovo modello sembrava una promessa.

Forse questa volta ci siamo.

C’era una specie di rituale.

Una lista di domande, sempre le stesse. Una “cartina di tornasole”.

Piccoli test per capire se il modello fosse davvero intelligente… o solo un altro giocattolo ben costruito.

Una domanda, più di tutte, sembrava definitiva:

È più grande 9.7 o 9.11?

Banale. Quasi offensiva.

Eppure molti modelli sbagliavano.

Rispondevano: 9.11.

Si sorrideva.

Anzi, si rideva proprio.

“Non siamo nemmeno lontanamente vicini”, pensavamo.

Se non sa rispondere a una cosa così semplice, di cosa stiamo parlando?

Io ero tra quelli.

Ridevo.

E aspettavo il prossimo modello, convinto che prima o poi ne sarebbe arrivato uno “giusto”.

Poi, un giorno, ascoltai un’intervista a uno sviluppatore di Anthropic.

Non ricordo nemmeno il contesto preciso. Ma a un certo punto disse una cosa quasi di passaggio:

I modelli vengono allenati anche su enormi quantità di codice.

Niente di sorprendente, in teoria.

Poi però mi si è acceso qualcosa.

Nel mondo del software, le versioni non sono numeri decimali.

Sono sequenze.

9.7
9.8
9.10
9.11

In quel contesto, 9.11 è davvero maggiore di 9.7.

È stato come prendere un pugno in faccia.

Forse non era il modello a sbagliare.

Forse era perfettamente coerente con una parte del mondo che aveva visto.

Ero io.

Io che pretendevo una verità assoluta, ignorando il contesto.

Io che giudicavo una risposta come sbagliata solo perché non era allineata alla mia interpretazione.

Non mi ha consolato sapere che eravamo in tanti a pensarla così.

Un errore condiviso resta un errore.

Mi ha fatto capire una cosa molto più scomoda:

una risposta non vive mai da sola.Vive dentro un contesto.

E da quel momento ho smesso di ridere degli LLM.

Ho iniziato a stare più attento alle domande.

Qualche tempo dopo, mi è tornata in mente una frase di Dale Carnegie.

Diceva più o meno così:

se puoi essere sicuro di avere ragione anche solo il 55% delle volte, puoi andare a Wall Street e fare un milione di dollari al giorno.

E poi aggiungeva qualcosa di ancora più scomodo:

se non puoi essere sicuro nemmeno di quel 55%, perché passi il tempo a dire agli altri che hanno torto?

È una domanda che vale anche qui.

Perché pretendiamo che le macchine abbiano sempre ragione quando noi, come esseri umani, sbagliamo continuamente?

Sbagliamo nelle valutazioni.

Sbagliamo nei ricordi.

Sbagliamo nelle interpretazioni.

Eppure conviviamo con questi errori.

Li accettiamo. Li normalizziamo.

Quando una persona risponde in modo impreciso, raramente parliamo di “allucinazione”.

Quando un esperto cambia idea, non diciamo automaticamente che è inutile.

Ma quando lo fa una macchina, la reazione cambia.

Non stiamo cercando risposte utili.

Stiamo cercando risposte perfette.

E questa aspettativa non nasce con l’intelligenza artificiale.

È molto più antica.

Fin dalla notte dei tempi, gli esseri umani hanno cercato una voce che non sbagliasse mai.

Abbiamo interrogato gli dei.

Abbiamo costruito oracoli.

Abbiamo immaginato testi perfetti, verità assolute, risposte incontestabili.

Non era solo religione.

Era un modo per eliminare l’incertezza.

L’oracolo di Delfi non era prezioso perché spiegava tutto con chiarezza.

Era prezioso perché sembrava parlare da un luogo al di sopra dell’errore umano.

O almeno, così volevamo credere.

Oggi rischiamo di fare la stessa cosa con gli LLM.

Facciamo domande vaghe.

Riceviamo risposte ambigue.

E spesso le chiamiamo “allucinazioni”.

Ma fermiamoci un attimo.

Se chiedi:

Posso usare il burro?

Un cuoco dirà: sì, migliora il sapore.

Un cardiologo dirà: meglio limitarlo.

Un nutrizionista dirà: dipende da quanto, quando e per chi.

Chi ha ragione?

Tutti.

O nessuno, senza contesto.

Gli LLM funzionano, almeno in parte, così.

Non cercano una verità metafisica.

Generano la risposta più plausibile dato il contesto disponibile.

Se il contesto è incompleto, la risposta può sembrare sbagliata.

Ma a volte è la domanda a essere povera.

Un LLM senza contesto non sta sempre “allucinando”.

Spesso sta completando.

Fa qualcosa che facciamo anche noi: riempie gli spazi vuoti.

Il problema è che continuiamo a trattarlo come un oracolo.

Vogliamo che sappia tutto.

Che capisca tutto.

Che non abbia bisogno di spiegazioni.

In altre parole: vogliamo che sia infallibile.

E quando non lo è, raramente mettiamo in discussione la domanda.

Mettiamo in discussione la macchina.

Eppure qualcosa sta cambiando.

I modelli più avanzati stanno iniziando a costruire memoria.

A ricordare chi siamo.

A inferire il contesto anche quando non lo esplicitiamo.

Non è solo una comodità.

È un tentativo di avvicinarsi sempre di più all’idea di oracolo.

Se noi non forniamo contesto, la macchina proverà a costruirlo da sola.

E questo dovrebbe farci riflettere.

Perché forse il vero problema non è che le macchine sbagliano.

Il vero problema è che continuiamo a fare domande povere aspettandoci risposte perfette.

Quando ridevo di quella risposta — 9.11 è maggiore di 9.7 — pensavo di stare giudicando una macchina.

In realtà, stavo rivelando qualcosa di molto più umano:

il bisogno di una verità assoluta.

La stessa che abbiamo cercato negli dei.

Negli oracoli.

Nei testi perfetti.

Smetteremo mai di cercarla?

Probabilmente no.

Ma forse possiamo fare qualcosa di più utile.

Possiamo iniziare a fare domande migliori.

Perché, in un mondo in cui molte risposte dipendono dal contesto, la qualità delle risposte dipende sempre più da una cosa sola:

la qualità del contesto che siamo in grado di creare.

Leave a comment