Sonda Hiperdimensional: Decodificación de Representaciones en Modelos de Lenguaje mediante Arquitecturas Simbólicas Vectoriales
Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures
September 29, 2025
Autores: Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini
cs.AI
Resumen
A pesar de sus capacidades, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) siguen siendo opacos, con una comprensión limitada de sus representaciones internas. Los métodos actuales de interpretabilidad, como la atribución directa de logits (DLA) y los autoencodificadores dispersos (SAEs), ofrecen una visión restringida debido a limitaciones como el vocabulario de salida del modelo o los nombres poco claros de las características. Este trabajo introduce Hyperdimensional Probe, un paradigma novedoso para decodificar información del espacio vectorial de los LLMs. Combina ideas de representaciones simbólicas y sondeo neuronal para proyectar el flujo residual del modelo en conceptos interpretables mediante Arquitecturas Simbólicas Vectoriales (VSAs). Esta sonda combina las fortalezas de los SAEs y las sondas convencionales, superando al mismo tiempo sus limitaciones clave. Validamos nuestro paradigma de decodificación con tareas controladas de completado de entradas, sondeando el estado final del modelo antes de la predicción del siguiente token en entradas que abarcan reconocimiento de patrones sintácticos, asociaciones clave-valor e inferencia abstracta. Además, lo evaluamos en un entorno de preguntas y respuestas, examinando el estado del modelo tanto antes como después de la generación de texto. Nuestros experimentos muestran que nuestra sonda extrae de manera confiable conceptos significativos en diversos LLMs, tamaños de incrustación y dominios de entrada, ayudando también a identificar fallos en los LLMs. Nuestro trabajo avanza en la decodificación de información en el espacio vectorial de los LLMs, permitiendo extraer características más informativas, interpretables y estructuradas a partir de representaciones neuronales.
English
Despite their capabilities, Large Language Models (LLMs) remain opaque with
limited understanding of their internal representations. Current
interpretability methods, such as direct logit attribution (DLA) and sparse
autoencoders (SAEs), provide restricted insight due to limitations such as the
model's output vocabulary or unclear feature names. This work introduces
Hyperdimensional Probe, a novel paradigm for decoding information from the LLM
vector space. It combines ideas from symbolic representations and neural
probing to project the model's residual stream into interpretable concepts via
Vector Symbolic Architectures (VSAs). This probe combines the strengths of SAEs
and conventional probes while overcoming their key limitations. We validate our
decoding paradigm with controlled input-completion tasks, probing the model's
final state before next-token prediction on inputs spanning syntactic pattern
recognition, key-value associations, and abstract inference. We further assess
it in a question-answering setting, examining the state of the model both
before and after text generation. Our experiments show that our probe reliably
extracts meaningful concepts across varied LLMs, embedding sizes, and input
domains, also helping identify LLM failures. Our work advances information
decoding in LLM vector space, enabling extracting more informative,
interpretable, and structured features from neural representations.