ChatPaper.aiChatPaper

Du bruit au récit : Retracer les origines des hallucinations dans les Transformers

From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers

September 8, 2025
papers.authors: Praneet Suresh, Jack Stanley, Sonia Joseph, Luca Scimeca, Danilo Bzdok
cs.AI

papers.abstract

Alors que les systèmes d'IA générative deviennent compétents et se démocratisent dans les domaines scientifiques, commerciaux et gouvernementaux, une compréhension approfondie de leurs modes de défaillance représente désormais un besoin urgent. L'instabilité occasionnelle de leur comportement, comme la propension des modèles de transformateurs à halluciner, entrave la confiance et l'adoption des solutions d'IA émergentes dans des domaines à enjeux élevés. Dans ce travail, nous établissons comment et quand les hallucinations surviennent dans les modèles de transformeurs pré-entraînés à travers les représentations de concepts capturées par des autoencodeurs parcimonieux, dans des scénarios où l'incertitude dans l'espace d'entrée est contrôlée expérimentalement. Nos expériences systématiques révèlent que le nombre de concepts sémantiques utilisés par le modèle de transformateur augmente à mesure que l'information d'entrée devient de plus en plus non structurée. Face à une incertitude croissante dans l'espace d'entrée, le modèle de transformateur devient enclin à activer des caractéristiques sémantiques cohérentes mais insensibles à l'entrée, conduisant à une sortie hallucinée. Dans les cas extrêmes, pour des entrées de pur bruit, nous identifions une grande variété de concepts robustement déclenchés et significatifs dans les activations intermédiaires des modèles de transformateurs pré-entraînés, dont nous confirmons l'intégrité fonctionnelle par un guidage ciblé. Nous montrons également que les hallucinations dans la sortie d'un modèle de transformateur peuvent être prédites de manière fiable à partir des motifs de concepts intégrés dans les activations des couches du transformateur. Cet ensemble d'observations sur les mécanismes internes de traitement des transformateurs a des implications immédiates pour l'alignement des modèles d'IA avec les valeurs humaines, la sécurité de l'IA, l'ouverture de la surface d'attaque pour des attaques adversarielles potentielles, et la fourniture d'une base pour la quantification automatique du risque d'hallucination d'un modèle.
English
As generative AI systems become competent and democratized in science, business, and government, deeper insight into their failure modes now poses an acute need. The occasional volatility in their behavior, such as the propensity of transformer models to hallucinate, impedes trust and adoption of emerging AI solutions in high-stakes areas. In the present work, we establish how and when hallucinations arise in pre-trained transformer models through concept representations captured by sparse autoencoders, under scenarios with experimentally controlled uncertainty in the input space. Our systematic experiments reveal that the number of semantic concepts used by the transformer model grows as the input information becomes increasingly unstructured. In the face of growing uncertainty in the input space, the transformer model becomes prone to activate coherent yet input-insensitive semantic features, leading to hallucinated output. At its extreme, for pure-noise inputs, we identify a wide variety of robustly triggered and meaningful concepts in the intermediate activations of pre-trained transformer models, whose functional integrity we confirm through targeted steering. We also show that hallucinations in the output of a transformer model can be reliably predicted from the concept patterns embedded in transformer layer activations. This collection of insights on transformer internal processing mechanics has immediate consequences for aligning AI models with human values, AI safety, opening the attack surface for potential adversarial attacks, and providing a basis for automatic quantification of a model's hallucination risk.
PDF22September 10, 2025