Vom Rauschen zur Erzählung: Die Ursprünge von Halluzinationen in Transformern nachzeichnen
From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers
September 8, 2025
papers.authors: Praneet Suresh, Jack Stanley, Sonia Joseph, Luca Scimeca, Danilo Bzdok
cs.AI
papers.abstract
Da generative KI-Systeme in Wissenschaft, Wirtschaft und Regierung kompetenter und demokratisiert werden, besteht nun ein dringender Bedarf an tieferen Einblicken in ihre Fehlermodi. Die gelegentliche Volatilität ihres Verhaltens, wie die Neigung von Transformer-Modellen zu Halluzinationen, behindert das Vertrauen und die Akzeptanz neuartiger KI-Lösungen in hochriskanten Bereichen. In der vorliegenden Arbeit untersuchen wir, wie und wann Halluzinationen in vortrainierten Transformer-Modellen durch Konzeptrepräsentationen entstehen, die von spärlichen Autoencodern erfasst werden, und zwar unter Szenarien mit experimentell kontrollierter Unsicherheit im Eingaberaum. Unsere systematischen Experimente zeigen, dass die Anzahl der semantischen Konzepte, die das Transformer-Modell verwendet, zunimmt, wenn die Eingabeinformationen zunehmend unstrukturiert werden. Bei wachsender Unsicherheit im Eingaberaum neigt das Transformer-Modell dazu, kohärente, aber eingabeunempfindliche semantische Merkmale zu aktivieren, was zu halluzinierten Ausgaben führt. Im Extremfall von reinen Rausch-Eingaben identifizieren wir eine Vielzahl von robust ausgelösten und bedeutungsvollen Konzepten in den Zwischenaktivierungen vortrainierter Transformer-Modelle, deren funktionale Integrität wir durch gezieltes Steuern bestätigen. Wir zeigen auch, dass Halluzinationen in der Ausgabe eines Transformer-Modells zuverlässig aus den in den Transformer-Schichtaktivierungen eingebetteten Konzeptmustern vorhergesagt werden können. Diese Sammlung von Erkenntnissen über die internen Verarbeitungsmechanismen von Transformer-Modellen hat unmittelbare Auswirkungen auf die Ausrichtung von KI-Modellen an menschlichen Werten, KI-Sicherheit, die Öffnung der Angriffsfläche für potenzielle Adversarial-Angriffe und die Bereitstellung einer Grundlage für die automatische Quantifizierung des Halluzinationsrisikos eines Modells.
English
As generative AI systems become competent and democratized in science,
business, and government, deeper insight into their failure modes now poses an
acute need. The occasional volatility in their behavior, such as the propensity
of transformer models to hallucinate, impedes trust and adoption of emerging AI
solutions in high-stakes areas. In the present work, we establish how and when
hallucinations arise in pre-trained transformer models through concept
representations captured by sparse autoencoders, under scenarios with
experimentally controlled uncertainty in the input space. Our systematic
experiments reveal that the number of semantic concepts used by the transformer
model grows as the input information becomes increasingly unstructured. In the
face of growing uncertainty in the input space, the transformer model becomes
prone to activate coherent yet input-insensitive semantic features, leading to
hallucinated output. At its extreme, for pure-noise inputs, we identify a wide
variety of robustly triggered and meaningful concepts in the intermediate
activations of pre-trained transformer models, whose functional integrity we
confirm through targeted steering. We also show that hallucinations in the
output of a transformer model can be reliably predicted from the concept
patterns embedded in transformer layer activations. This collection of insights
on transformer internal processing mechanics has immediate consequences for
aligning AI models with human values, AI safety, opening the attack surface for
potential adversarial attacks, and providing a basis for automatic
quantification of a model's hallucination risk.