Sonda Hiperdimensional: Decodificación de Representaciones en Modelos de Lenguaje mediante Arquitecturas Simbólicas Vectoriales

Resumen

A pesar de sus capacidades, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) siguen siendo opacos, con una comprensión limitada de sus representaciones internas. Los métodos actuales de interpretabilidad, como la atribución directa de logits (DLA) y los autoencodificadores dispersos (SAEs), ofrecen una visión restringida debido a limitaciones como el vocabulario de salida del modelo o los nombres poco claros de las características. Este trabajo introduce Hyperdimensional Probe, un paradigma novedoso para decodificar información del espacio vectorial de los LLMs. Combina ideas de representaciones simbólicas y sondeo neuronal para proyectar el flujo residual del modelo en conceptos interpretables mediante Arquitecturas Simbólicas Vectoriales (VSAs). Esta sonda combina las fortalezas de los SAEs y las sondas convencionales, superando al mismo tiempo sus limitaciones clave. Validamos nuestro paradigma de decodificación con tareas controladas de completado de entradas, sondeando el estado final del modelo antes de la predicción del siguiente token en entradas que abarcan reconocimiento de patrones sintácticos, asociaciones clave-valor e inferencia abstracta. Además, lo evaluamos en un entorno de preguntas y respuestas, examinando el estado del modelo tanto antes como después de la generación de texto. Nuestros experimentos muestran que nuestra sonda extrae de manera confiable conceptos significativos en diversos LLMs, tamaños de incrustación y dominios de entrada, ayudando también a identificar fallos en los LLMs. Nuestro trabajo avanza en la decodificación de información en el espacio vectorial de los LLMs, permitiendo extraer características más informativas, interpretables y estructuradas a partir de representaciones neuronales.

English

Despite their capabilities, Large Language Models (LLMs) remain opaque with limited understanding of their internal representations. Current interpretability methods, such as direct logit attribution (DLA) and sparse autoencoders (SAEs), provide restricted insight due to limitations such as the model's output vocabulary or unclear feature names. This work introduces Hyperdimensional Probe, a novel paradigm for decoding information from the LLM vector space. It combines ideas from symbolic representations and neural probing to project the model's residual stream into interpretable concepts via Vector Symbolic Architectures (VSAs). This probe combines the strengths of SAEs and conventional probes while overcoming their key limitations. We validate our decoding paradigm with controlled input-completion tasks, probing the model's final state before next-token prediction on inputs spanning syntactic pattern recognition, key-value associations, and abstract inference. We further assess it in a question-answering setting, examining the state of the model both before and after text generation. Our experiments show that our probe reliably extracts meaningful concepts across varied LLMs, embedding sizes, and input domains, also helping identify LLM failures. Our work advances information decoding in LLM vector space, enabling extracting more informative, interpretable, and structured features from neural representations.

Sonda Hiperdimensional: Decodificación de Representaciones en Modelos de Lenguaje mediante Arquitecturas Simbólicas Vectoriales

Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures

Resumen

Support