Hyperdimensionale Sonde: Dekodierung von LLM-Repräsentationen durch Vektor-Symbolische Architekturen

papers.abstract

Trotz ihrer Fähigkeiten bleiben Large Language Models (LLMs) undurchsichtig, mit begrenztem Verständnis ihrer internen Repräsentationen. Aktuelle Interpretationsmethoden wie die direkte Logit-Zuordnung (Direct Logit Attribution, DLA) und spärliche Autoencoder (Sparse Autoencoders, SAEs) bieten nur eingeschränkte Einblicke aufgrund von Beschränkungen wie dem Ausgabevokabular des Modells oder unklaren Feature-Namen. Diese Arbeit stellt Hyperdimensional Probe vor, ein neuartiges Paradigma zur Dekodierung von Informationen aus dem Vektorraum von LLMs. Es kombiniert Ideen aus symbolischen Repräsentationen und neuronalem Probing, um den Residualstrom des Modells über Vector Symbolic Architectures (VSAs) in interpretierbare Konzepte zu projizieren. Diese Sonde vereint die Stärken von SAEs und konventionellen Proben, während sie deren wesentliche Einschränkungen überwindet. Wir validieren unser Dekodierungsparadigma mit kontrollierten Eingabe-Vervollständigungsaufgaben, indem wir den Endzustand des Modells vor der nächsten Token-Vorhersage bei Eingaben untersuchen, die syntaktische Mustererkennung, Schlüssel-Wert-Assoziationen und abstrakte Inferenz umfassen. Weiterhin bewerten wir es in einem Frage-Antwort-Szenario, indem wir den Zustand des Modells sowohl vor als auch nach der Textgenerierung untersuchen. Unsere Experimente zeigen, dass unsere Sonde zuverlässig bedeutungsvolle Konzepte über verschiedene LLMs, Einbettungsgrößen und Eingabedomänen hinweg extrahiert und auch dabei hilft, Fehler von LLMs zu identifizieren. Unsere Arbeit fördert die Informationsdekodierung im Vektorraum von LLMs und ermöglicht die Extraktion informativerer, interpretierbarer und strukturierterer Merkmale aus neuronalen Repräsentationen.

English

Despite their capabilities, Large Language Models (LLMs) remain opaque with limited understanding of their internal representations. Current interpretability methods, such as direct logit attribution (DLA) and sparse autoencoders (SAEs), provide restricted insight due to limitations such as the model's output vocabulary or unclear feature names. This work introduces Hyperdimensional Probe, a novel paradigm for decoding information from the LLM vector space. It combines ideas from symbolic representations and neural probing to project the model's residual stream into interpretable concepts via Vector Symbolic Architectures (VSAs). This probe combines the strengths of SAEs and conventional probes while overcoming their key limitations. We validate our decoding paradigm with controlled input-completion tasks, probing the model's final state before next-token prediction on inputs spanning syntactic pattern recognition, key-value associations, and abstract inference. We further assess it in a question-answering setting, examining the state of the model both before and after text generation. Our experiments show that our probe reliably extracts meaningful concepts across varied LLMs, embedding sizes, and input domains, also helping identify LLM failures. Our work advances information decoding in LLM vector space, enabling extracting more informative, interpretable, and structured features from neural representations.

Hyperdimensionale Sonde: Dekodierung von LLM-Repräsentationen durch Vektor-Symbolische Architekturen

Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures

papers.abstract

Support