Sonde Hyperdimensionnelle : Décodage des Représentations des LLM via les Architectures Symboliques Vectorielles

papers.abstract

Malgré leurs capacités, les modèles de langage à grande échelle (LLM) restent opaques avec une compréhension limitée de leurs représentations internes. Les méthodes actuelles d'interprétabilité, telles que l'attribution directe des logits (DLA) et les autoencodeurs parcimonieux (SAEs), offrent un aperçu restreint en raison de limitations telles que le vocabulaire de sortie du modèle ou les noms de caractéristiques peu clairs. Ce travail introduit Hyperdimensional Probe, un nouveau paradigme pour décoder l'information à partir de l'espace vectoriel des LLM. Il combine des idées issues des représentations symboliques et des sondages neuronaux pour projeter le flux résiduel du modèle en concepts interprétables via les architectures vectorielles symboliques (VSAs). Cette sonde combine les forces des SAEs et des sondages conventionnels tout en surmontant leurs principales limitations. Nous validons notre paradigme de décodage avec des tâches contrôlées de complétion d'entrée, en sondant l'état final du modèle avant la prédiction du prochain jeton sur des entrées couvrant la reconnaissance de motifs syntaxiques, les associations clé-valeur et l'inférence abstraite. Nous l'évaluons également dans un cadre de question-réponse, en examinant l'état du modèle avant et après la génération de texte. Nos expériences montrent que notre sonde extrait de manière fiable des concepts significatifs à travers divers LLM, tailles d'embedding et domaines d'entrée, aidant également à identifier les échecs des LLM. Notre travail fait progresser le décodage de l'information dans l'espace vectoriel des LLM, permettant d'extraire des caractéristiques plus informatives, interprétables et structurées à partir des représentations neuronales.

English

Despite their capabilities, Large Language Models (LLMs) remain opaque with limited understanding of their internal representations. Current interpretability methods, such as direct logit attribution (DLA) and sparse autoencoders (SAEs), provide restricted insight due to limitations such as the model's output vocabulary or unclear feature names. This work introduces Hyperdimensional Probe, a novel paradigm for decoding information from the LLM vector space. It combines ideas from symbolic representations and neural probing to project the model's residual stream into interpretable concepts via Vector Symbolic Architectures (VSAs). This probe combines the strengths of SAEs and conventional probes while overcoming their key limitations. We validate our decoding paradigm with controlled input-completion tasks, probing the model's final state before next-token prediction on inputs spanning syntactic pattern recognition, key-value associations, and abstract inference. We further assess it in a question-answering setting, examining the state of the model both before and after text generation. Our experiments show that our probe reliably extracts meaningful concepts across varied LLMs, embedding sizes, and input domains, also helping identify LLM failures. Our work advances information decoding in LLM vector space, enabling extracting more informative, interpretable, and structured features from neural representations.

Sonde Hyperdimensionnelle : Décodage des Représentations des LLM via les Architectures Symboliques Vectorielles

Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures

papers.abstract

Support