Hyperdimensionale Sonde: Het Decoderen van LLM-representaties via Vectoriële Symbolische Architecturen
Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures
September 29, 2025
Auteurs: Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini
cs.AI
Samenvatting
Ondanks hun mogelijkheden blijven Large Language Models (LLM's) ondoorzichtig met een beperkt begrip van hun interne representaties. Huidige interpreteerbaarheidsmethoden, zoals directe logit-toeschrijving (DLA) en sparse autoencoders (SAE's), bieden beperkt inzicht vanwege beperkingen zoals het uitvoervocabulaire van het model of onduidelijke feature-namen. Dit werk introduceert Hyperdimensional Probe, een nieuw paradigma voor het decoderen van informatie uit de LLM-vectorruimte. Het combineert ideeën uit symbolische representaties en neurale probing om de reststroom van het model te projecteren in interpreteerbare concepten via Vector Symbolic Architectures (VSA's). Deze probe combineert de sterke punten van SAE's en conventionele probes terwijl het hun belangrijkste beperkingen overwint. We valideren ons decoderingsparadigma met gecontroleerde invoer-voltooiingstaken, waarbij we de eindtoestand van het model onderzoeken voordat de volgende token wordt voorspeld op invoer die syntactische patroonherkenning, sleutel-waarde-associaties en abstracte inferentie omvat. We beoordelen het verder in een vraag-antwoordsetting, waarbij we de toestand van het model zowel voor als na tekstgeneratie onderzoeken. Onze experimenten tonen aan dat onze probe betrouwbaar betekenisvolle concepten extraheert over verschillende LLM's, embedding-groottes en invoerdomeinen, en helpt ook bij het identificeren van LLM-fouten. Ons werk bevordert het decoderen van informatie in de LLM-vectorruimte, waardoor het mogelijk wordt om meer informatieve, interpreteerbare en gestructureerde features uit neurale representaties te extraheren.
English
Despite their capabilities, Large Language Models (LLMs) remain opaque with
limited understanding of their internal representations. Current
interpretability methods, such as direct logit attribution (DLA) and sparse
autoencoders (SAEs), provide restricted insight due to limitations such as the
model's output vocabulary or unclear feature names. This work introduces
Hyperdimensional Probe, a novel paradigm for decoding information from the LLM
vector space. It combines ideas from symbolic representations and neural
probing to project the model's residual stream into interpretable concepts via
Vector Symbolic Architectures (VSAs). This probe combines the strengths of SAEs
and conventional probes while overcoming their key limitations. We validate our
decoding paradigm with controlled input-completion tasks, probing the model's
final state before next-token prediction on inputs spanning syntactic pattern
recognition, key-value associations, and abstract inference. We further assess
it in a question-answering setting, examining the state of the model both
before and after text generation. Our experiments show that our probe reliably
extracts meaningful concepts across varied LLMs, embedding sizes, and input
domains, also helping identify LLM failures. Our work advances information
decoding in LLM vector space, enabling extracting more informative,
interpretable, and structured features from neural representations.