Dal Rumore alla Narrazione: Tracciare le Origini delle Allucinazioni nei Transformer
From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers
September 8, 2025
Autori: Praneet Suresh, Jack Stanley, Sonia Joseph, Luca Scimeca, Danilo Bzdok
cs.AI
Abstract
Man mano che i sistemi di intelligenza artificiale generativa diventano competenti e democratizzati nella scienza, negli affari e nel governo, una comprensione più profonda delle loro modalità di fallimento rappresenta ora un'esigenza urgente. L'occasionale volatilità nel loro comportamento, come la propensione dei modelli transformer a produrre allucinazioni, ostacola la fiducia e l'adozione delle soluzioni AI emergenti in ambiti ad alto rischio. Nel presente lavoro, stabiliamo come e quando le allucinazioni si manifestano nei modelli transformer pre-addestrati attraverso rappresentazioni concettuali catturate da autoencoder sparsi, in scenari con incertezza sperimentalmente controllata nello spazio di input. I nostri esperimenti sistematici rivelano che il numero di concetti semantici utilizzati dal modello transformer cresce man mano che le informazioni di input diventano sempre più non strutturate. Di fronte a una crescente incertezza nello spazio di input, il modello transformer diventa incline ad attivare caratteristiche semantiche coerenti ma insensibili all'input, portando a un output allucinato. All'estremo, per input di puro rumore, identifichiamo una vasta gamma di concetti significativi e robustamente attivati nelle attivazioni intermedie dei modelli transformer pre-addestrati, la cui integrità funzionale confermiamo attraverso un controllo mirato. Mostriamo inoltre che le allucinazioni nell'output di un modello transformer possono essere previste in modo affidabile dai modelli concettuali incorporati nelle attivazioni degli strati transformer. Questa raccolta di intuizioni sulla meccanica interna di elaborazione dei transformer ha immediate conseguenze per l'allineamento dei modelli AI con i valori umani, la sicurezza dell'AI, l'apertura della superficie di attacco per potenziali attacchi avversari e la fornitura di una base per la quantificazione automatica del rischio di allucinazione di un modello.
English
As generative AI systems become competent and democratized in science,
business, and government, deeper insight into their failure modes now poses an
acute need. The occasional volatility in their behavior, such as the propensity
of transformer models to hallucinate, impedes trust and adoption of emerging AI
solutions in high-stakes areas. In the present work, we establish how and when
hallucinations arise in pre-trained transformer models through concept
representations captured by sparse autoencoders, under scenarios with
experimentally controlled uncertainty in the input space. Our systematic
experiments reveal that the number of semantic concepts used by the transformer
model grows as the input information becomes increasingly unstructured. In the
face of growing uncertainty in the input space, the transformer model becomes
prone to activate coherent yet input-insensitive semantic features, leading to
hallucinated output. At its extreme, for pure-noise inputs, we identify a wide
variety of robustly triggered and meaningful concepts in the intermediate
activations of pre-trained transformer models, whose functional integrity we
confirm through targeted steering. We also show that hallucinations in the
output of a transformer model can be reliably predicted from the concept
patterns embedded in transformer layer activations. This collection of insights
on transformer internal processing mechanics has immediate consequences for
aligning AI models with human values, AI safety, opening the attack surface for
potential adversarial attacks, and providing a basis for automatic
quantification of a model's hallucination risk.