Dal Rumore alla Narrazione: Tracciare le Origini delle Allucinazioni nei Transformer

Abstract

Man mano che i sistemi di intelligenza artificiale generativa diventano competenti e democratizzati nella scienza, negli affari e nel governo, una comprensione più profonda delle loro modalità di fallimento rappresenta ora un'esigenza urgente. L'occasionale volatilità nel loro comportamento, come la propensione dei modelli transformer a produrre allucinazioni, ostacola la fiducia e l'adozione delle soluzioni AI emergenti in ambiti ad alto rischio. Nel presente lavoro, stabiliamo come e quando le allucinazioni si manifestano nei modelli transformer pre-addestrati attraverso rappresentazioni concettuali catturate da autoencoder sparsi, in scenari con incertezza sperimentalmente controllata nello spazio di input. I nostri esperimenti sistematici rivelano che il numero di concetti semantici utilizzati dal modello transformer cresce man mano che le informazioni di input diventano sempre più non strutturate. Di fronte a una crescente incertezza nello spazio di input, il modello transformer diventa incline ad attivare caratteristiche semantiche coerenti ma insensibili all'input, portando a un output allucinato. All'estremo, per input di puro rumore, identifichiamo una vasta gamma di concetti significativi e robustamente attivati nelle attivazioni intermedie dei modelli transformer pre-addestrati, la cui integrità funzionale confermiamo attraverso un controllo mirato. Mostriamo inoltre che le allucinazioni nell'output di un modello transformer possono essere previste in modo affidabile dai modelli concettuali incorporati nelle attivazioni degli strati transformer. Questa raccolta di intuizioni sulla meccanica interna di elaborazione dei transformer ha immediate conseguenze per l'allineamento dei modelli AI con i valori umani, la sicurezza dell'AI, l'apertura della superficie di attacco per potenziali attacchi avversari e la fornitura di una base per la quantificazione automatica del rischio di allucinazione di un modello.

English

As generative AI systems become competent and democratized in science, business, and government, deeper insight into their failure modes now poses an acute need. The occasional volatility in their behavior, such as the propensity of transformer models to hallucinate, impedes trust and adoption of emerging AI solutions in high-stakes areas. In the present work, we establish how and when hallucinations arise in pre-trained transformer models through concept representations captured by sparse autoencoders, under scenarios with experimentally controlled uncertainty in the input space. Our systematic experiments reveal that the number of semantic concepts used by the transformer model grows as the input information becomes increasingly unstructured. In the face of growing uncertainty in the input space, the transformer model becomes prone to activate coherent yet input-insensitive semantic features, leading to hallucinated output. At its extreme, for pure-noise inputs, we identify a wide variety of robustly triggered and meaningful concepts in the intermediate activations of pre-trained transformer models, whose functional integrity we confirm through targeted steering. We also show that hallucinations in the output of a transformer model can be reliably predicted from the concept patterns embedded in transformer layer activations. This collection of insights on transformer internal processing mechanics has immediate consequences for aligning AI models with human values, AI safety, opening the attack surface for potential adversarial attacks, and providing a basis for automatic quantification of a model's hallucination risk.

Dal Rumore alla Narrazione: Tracciare le Origini delle Allucinazioni nei Transformer

From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers

Abstract

Support