Vom Rauschen zur Erzählung: Die Ursprünge von Halluzinationen in Transformern nachzeichnen

papers.abstract

Da generative KI-Systeme in Wissenschaft, Wirtschaft und Regierung kompetenter und demokratisiert werden, besteht nun ein dringender Bedarf an tieferen Einblicken in ihre Fehlermodi. Die gelegentliche Volatilität ihres Verhaltens, wie die Neigung von Transformer-Modellen zu Halluzinationen, behindert das Vertrauen und die Akzeptanz neuartiger KI-Lösungen in hochriskanten Bereichen. In der vorliegenden Arbeit untersuchen wir, wie und wann Halluzinationen in vortrainierten Transformer-Modellen durch Konzeptrepräsentationen entstehen, die von spärlichen Autoencodern erfasst werden, und zwar unter Szenarien mit experimentell kontrollierter Unsicherheit im Eingaberaum. Unsere systematischen Experimente zeigen, dass die Anzahl der semantischen Konzepte, die das Transformer-Modell verwendet, zunimmt, wenn die Eingabeinformationen zunehmend unstrukturiert werden. Bei wachsender Unsicherheit im Eingaberaum neigt das Transformer-Modell dazu, kohärente, aber eingabeunempfindliche semantische Merkmale zu aktivieren, was zu halluzinierten Ausgaben führt. Im Extremfall von reinen Rausch-Eingaben identifizieren wir eine Vielzahl von robust ausgelösten und bedeutungsvollen Konzepten in den Zwischenaktivierungen vortrainierter Transformer-Modelle, deren funktionale Integrität wir durch gezieltes Steuern bestätigen. Wir zeigen auch, dass Halluzinationen in der Ausgabe eines Transformer-Modells zuverlässig aus den in den Transformer-Schichtaktivierungen eingebetteten Konzeptmustern vorhergesagt werden können. Diese Sammlung von Erkenntnissen über die internen Verarbeitungsmechanismen von Transformer-Modellen hat unmittelbare Auswirkungen auf die Ausrichtung von KI-Modellen an menschlichen Werten, KI-Sicherheit, die Öffnung der Angriffsfläche für potenzielle Adversarial-Angriffe und die Bereitstellung einer Grundlage für die automatische Quantifizierung des Halluzinationsrisikos eines Modells.

English

As generative AI systems become competent and democratized in science, business, and government, deeper insight into their failure modes now poses an acute need. The occasional volatility in their behavior, such as the propensity of transformer models to hallucinate, impedes trust and adoption of emerging AI solutions in high-stakes areas. In the present work, we establish how and when hallucinations arise in pre-trained transformer models through concept representations captured by sparse autoencoders, under scenarios with experimentally controlled uncertainty in the input space. Our systematic experiments reveal that the number of semantic concepts used by the transformer model grows as the input information becomes increasingly unstructured. In the face of growing uncertainty in the input space, the transformer model becomes prone to activate coherent yet input-insensitive semantic features, leading to hallucinated output. At its extreme, for pure-noise inputs, we identify a wide variety of robustly triggered and meaningful concepts in the intermediate activations of pre-trained transformer models, whose functional integrity we confirm through targeted steering. We also show that hallucinations in the output of a transformer model can be reliably predicted from the concept patterns embedded in transformer layer activations. This collection of insights on transformer internal processing mechanics has immediate consequences for aligning AI models with human values, AI safety, opening the attack surface for potential adversarial attacks, and providing a basis for automatic quantification of a model's hallucination risk.

Vom Rauschen zur Erzählung: Die Ursprünge von Halluzinationen in Transformern nachzeichnen

From Noise to Narrative: Tracing the Origins of Hallucinations in Transformers

papers.abstract

Support