Hyperdimensionale Sonde: Dekodierung von LLM-Repräsentationen durch Vektor-Symbolische Architekturen
Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures
September 29, 2025
papers.authors: Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini
cs.AI
papers.abstract
Trotz ihrer Fähigkeiten bleiben Large Language Models (LLMs) undurchsichtig, mit begrenztem Verständnis ihrer internen Repräsentationen. Aktuelle Interpretationsmethoden wie die direkte Logit-Zuordnung (Direct Logit Attribution, DLA) und spärliche Autoencoder (Sparse Autoencoders, SAEs) bieten nur eingeschränkte Einblicke aufgrund von Beschränkungen wie dem Ausgabevokabular des Modells oder unklaren Feature-Namen. Diese Arbeit stellt Hyperdimensional Probe vor, ein neuartiges Paradigma zur Dekodierung von Informationen aus dem Vektorraum von LLMs. Es kombiniert Ideen aus symbolischen Repräsentationen und neuronalem Probing, um den Residualstrom des Modells über Vector Symbolic Architectures (VSAs) in interpretierbare Konzepte zu projizieren. Diese Sonde vereint die Stärken von SAEs und konventionellen Proben, während sie deren wesentliche Einschränkungen überwindet. Wir validieren unser Dekodierungsparadigma mit kontrollierten Eingabe-Vervollständigungsaufgaben, indem wir den Endzustand des Modells vor der nächsten Token-Vorhersage bei Eingaben untersuchen, die syntaktische Mustererkennung, Schlüssel-Wert-Assoziationen und abstrakte Inferenz umfassen. Weiterhin bewerten wir es in einem Frage-Antwort-Szenario, indem wir den Zustand des Modells sowohl vor als auch nach der Textgenerierung untersuchen. Unsere Experimente zeigen, dass unsere Sonde zuverlässig bedeutungsvolle Konzepte über verschiedene LLMs, Einbettungsgrößen und Eingabedomänen hinweg extrahiert und auch dabei hilft, Fehler von LLMs zu identifizieren. Unsere Arbeit fördert die Informationsdekodierung im Vektorraum von LLMs und ermöglicht die Extraktion informativerer, interpretierbarer und strukturierterer Merkmale aus neuronalen Repräsentationen.
English
Despite their capabilities, Large Language Models (LLMs) remain opaque with
limited understanding of their internal representations. Current
interpretability methods, such as direct logit attribution (DLA) and sparse
autoencoders (SAEs), provide restricted insight due to limitations such as the
model's output vocabulary or unclear feature names. This work introduces
Hyperdimensional Probe, a novel paradigm for decoding information from the LLM
vector space. It combines ideas from symbolic representations and neural
probing to project the model's residual stream into interpretable concepts via
Vector Symbolic Architectures (VSAs). This probe combines the strengths of SAEs
and conventional probes while overcoming their key limitations. We validate our
decoding paradigm with controlled input-completion tasks, probing the model's
final state before next-token prediction on inputs spanning syntactic pattern
recognition, key-value associations, and abstract inference. We further assess
it in a question-answering setting, examining the state of the model both
before and after text generation. Our experiments show that our probe reliably
extracts meaningful concepts across varied LLMs, embedding sizes, and input
domains, also helping identify LLM failures. Our work advances information
decoding in LLM vector space, enabling extracting more informative,
interpretable, and structured features from neural representations.