Sonde Hyperdimensionnelle : Décodage des Représentations des LLM via les Architectures Symboliques Vectorielles
Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures
September 29, 2025
papers.authors: Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini
cs.AI
papers.abstract
Malgré leurs capacités, les modèles de langage à grande échelle (LLM) restent opaques avec une compréhension limitée de leurs représentations internes. Les méthodes actuelles d'interprétabilité, telles que l'attribution directe des logits (DLA) et les autoencodeurs parcimonieux (SAEs), offrent un aperçu restreint en raison de limitations telles que le vocabulaire de sortie du modèle ou les noms de caractéristiques peu clairs. Ce travail introduit Hyperdimensional Probe, un nouveau paradigme pour décoder l'information à partir de l'espace vectoriel des LLM. Il combine des idées issues des représentations symboliques et des sondages neuronaux pour projeter le flux résiduel du modèle en concepts interprétables via les architectures vectorielles symboliques (VSAs). Cette sonde combine les forces des SAEs et des sondages conventionnels tout en surmontant leurs principales limitations. Nous validons notre paradigme de décodage avec des tâches contrôlées de complétion d'entrée, en sondant l'état final du modèle avant la prédiction du prochain jeton sur des entrées couvrant la reconnaissance de motifs syntaxiques, les associations clé-valeur et l'inférence abstraite. Nous l'évaluons également dans un cadre de question-réponse, en examinant l'état du modèle avant et après la génération de texte. Nos expériences montrent que notre sonde extrait de manière fiable des concepts significatifs à travers divers LLM, tailles d'embedding et domaines d'entrée, aidant également à identifier les échecs des LLM. Notre travail fait progresser le décodage de l'information dans l'espace vectoriel des LLM, permettant d'extraire des caractéristiques plus informatives, interprétables et structurées à partir des représentations neuronales.
English
Despite their capabilities, Large Language Models (LLMs) remain opaque with
limited understanding of their internal representations. Current
interpretability methods, such as direct logit attribution (DLA) and sparse
autoencoders (SAEs), provide restricted insight due to limitations such as the
model's output vocabulary or unclear feature names. This work introduces
Hyperdimensional Probe, a novel paradigm for decoding information from the LLM
vector space. It combines ideas from symbolic representations and neural
probing to project the model's residual stream into interpretable concepts via
Vector Symbolic Architectures (VSAs). This probe combines the strengths of SAEs
and conventional probes while overcoming their key limitations. We validate our
decoding paradigm with controlled input-completion tasks, probing the model's
final state before next-token prediction on inputs spanning syntactic pattern
recognition, key-value associations, and abstract inference. We further assess
it in a question-answering setting, examining the state of the model both
before and after text generation. Our experiments show that our probe reliably
extracts meaningful concepts across varied LLMs, embedding sizes, and input
domains, also helping identify LLM failures. Our work advances information
decoding in LLM vector space, enabling extracting more informative,
interpretable, and structured features from neural representations.