ChatPaper.aiChatPaper

Van Ruis tot Verhaal: Het Oorsprongsspoor van Hallucinaties in Transformers

From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers

September 8, 2025
Auteurs: Praneet Suresh, Jack Stanley, Sonia Joseph, Luca Scimeca, Danilo Bzdok
cs.AI

Samenvatting

Naarmate generatieve AI-systemen competent en gedemocratiseerd raken in wetenschap, bedrijfsleven en overheid, is dieper inzicht in hun faalmodi nu een acute noodzaak. De occasionele volatiliteit in hun gedrag, zoals de neiging van transformermodellen om te hallucineren, belemmert het vertrouwen en de adoptie van opkomende AI-oplossingen in hoogrisicogebieden. In dit werk onderzoeken we hoe en wanneer hallucinaties ontstaan in vooraf getrainde transformermodellen via conceptrepresentaties die worden vastgelegd door sparse autoencoders, onder scenario's met experimenteel gecontroleerde onzekerheid in de invoerruimte. Onze systematische experimenten tonen aan dat het aantal semantische concepten dat door het transformermodel wordt gebruikt, toeneemt naarmate de invoerinformatie steeds ongestructureerder wordt. Bij toenemende onzekerheid in de invoerruimte wordt het transformermodel gevoelig voor het activeren van coherente maar invoerongevoelige semantische kenmerken, wat leidt tot gehallucineerde uitvoer. In het extreme geval van pure-ruisinvoer identificeren we een breed scala aan robuust geactiveerde en betekenisvolle concepten in de tussenliggende activaties van vooraf getrainde transformermodellen, waarvan we de functionele integriteit bevestigen via gerichte sturing. We tonen ook aan dat hallucinaties in de uitvoer van een transformermodel betrouwbaar kunnen worden voorspeld op basis van de conceptpatronen die zijn ingebed in de activaties van transformerlagen. Deze verzameling inzichten in de interne verwerkingsmechanica van transformermodellen heeft directe gevolgen voor het afstemmen van AI-modellen op menselijke waarden, AI-veiligheid, het openen van het aanvalsoppervlak voor potentiële adversariële aanvallen, en het bieden van een basis voor automatische kwantificering van het hallucinatierisico van een model.
English
As generative AI systems become competent and democratized in science, business, and government, deeper insight into their failure modes now poses an acute need. The occasional volatility in their behavior, such as the propensity of transformer models to hallucinate, impedes trust and adoption of emerging AI solutions in high-stakes areas. In the present work, we establish how and when hallucinations arise in pre-trained transformer models through concept representations captured by sparse autoencoders, under scenarios with experimentally controlled uncertainty in the input space. Our systematic experiments reveal that the number of semantic concepts used by the transformer model grows as the input information becomes increasingly unstructured. In the face of growing uncertainty in the input space, the transformer model becomes prone to activate coherent yet input-insensitive semantic features, leading to hallucinated output. At its extreme, for pure-noise inputs, we identify a wide variety of robustly triggered and meaningful concepts in the intermediate activations of pre-trained transformer models, whose functional integrity we confirm through targeted steering. We also show that hallucinations in the output of a transformer model can be reliably predicted from the concept patterns embedded in transformer layer activations. This collection of insights on transformer internal processing mechanics has immediate consequences for aligning AI models with human values, AI safety, opening the attack surface for potential adversarial attacks, and providing a basis for automatic quantification of a model's hallucination risk.
PDF52September 10, 2025