Du bruit au récit : Retracer les origines des hallucinations dans les Transformers
From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers
September 8, 2025
papers.authors: Praneet Suresh, Jack Stanley, Sonia Joseph, Luca Scimeca, Danilo Bzdok
cs.AI
papers.abstract
Alors que les systèmes d'IA générative deviennent compétents et se démocratisent dans les domaines scientifiques, commerciaux et gouvernementaux, une compréhension approfondie de leurs modes de défaillance représente désormais un besoin urgent. L'instabilité occasionnelle de leur comportement, comme la propension des modèles de transformateurs à halluciner, entrave la confiance et l'adoption des solutions d'IA émergentes dans des domaines à enjeux élevés. Dans ce travail, nous établissons comment et quand les hallucinations surviennent dans les modèles de transformeurs pré-entraînés à travers les représentations de concepts capturées par des autoencodeurs parcimonieux, dans des scénarios où l'incertitude dans l'espace d'entrée est contrôlée expérimentalement. Nos expériences systématiques révèlent que le nombre de concepts sémantiques utilisés par le modèle de transformateur augmente à mesure que l'information d'entrée devient de plus en plus non structurée. Face à une incertitude croissante dans l'espace d'entrée, le modèle de transformateur devient enclin à activer des caractéristiques sémantiques cohérentes mais insensibles à l'entrée, conduisant à une sortie hallucinée. Dans les cas extrêmes, pour des entrées de pur bruit, nous identifions une grande variété de concepts robustement déclenchés et significatifs dans les activations intermédiaires des modèles de transformateurs pré-entraînés, dont nous confirmons l'intégrité fonctionnelle par un guidage ciblé. Nous montrons également que les hallucinations dans la sortie d'un modèle de transformateur peuvent être prédites de manière fiable à partir des motifs de concepts intégrés dans les activations des couches du transformateur. Cet ensemble d'observations sur les mécanismes internes de traitement des transformateurs a des implications immédiates pour l'alignement des modèles d'IA avec les valeurs humaines, la sécurité de l'IA, l'ouverture de la surface d'attaque pour des attaques adversarielles potentielles, et la fourniture d'une base pour la quantification automatique du risque d'hallucination d'un modèle.
English
As generative AI systems become competent and democratized in science,
business, and government, deeper insight into their failure modes now poses an
acute need. The occasional volatility in their behavior, such as the propensity
of transformer models to hallucinate, impedes trust and adoption of emerging AI
solutions in high-stakes areas. In the present work, we establish how and when
hallucinations arise in pre-trained transformer models through concept
representations captured by sparse autoencoders, under scenarios with
experimentally controlled uncertainty in the input space. Our systematic
experiments reveal that the number of semantic concepts used by the transformer
model grows as the input information becomes increasingly unstructured. In the
face of growing uncertainty in the input space, the transformer model becomes
prone to activate coherent yet input-insensitive semantic features, leading to
hallucinated output. At its extreme, for pure-noise inputs, we identify a wide
variety of robustly triggered and meaningful concepts in the intermediate
activations of pre-trained transformer models, whose functional integrity we
confirm through targeted steering. We also show that hallucinations in the
output of a transformer model can be reliably predicted from the concept
patterns embedded in transformer layer activations. This collection of insights
on transformer internal processing mechanics has immediate consequences for
aligning AI models with human values, AI safety, opening the attack surface for
potential adversarial attacks, and providing a basis for automatic
quantification of a model's hallucination risk.