Sonda Hiperdimensional: Decodificando Representações de LLMs por meio de Arquiteturas Simbólicas Vetoriais
Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures
September 29, 2025
Autores: Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini
cs.AI
Resumo
Apesar de suas capacidades, os Modelos de Linguagem de Grande Escala (LLMs) permanecem opacos, com compreensão limitada de suas representações internas. Os métodos atuais de interpretabilidade, como a atribuição direta de logits (DLA) e autoencoders esparsos (SAEs), fornecem insights restritos devido a limitações como o vocabulário de saída do modelo ou nomes de recursos pouco claros. Este trabalho introduz o Hyperdimensional Probe, um novo paradigma para decodificar informações do espaço vetorial dos LLMs. Ele combina ideias de representações simbólicas e sondagem neural para projetar o fluxo residual do modelo em conceitos interpretáveis por meio de Arquiteturas Simbólicas Vetoriais (VSAs). Essa sonda combina os pontos fortes dos SAEs e das sondas convencionais, superando suas principais limitações. Validamos nosso paradigma de decodificação com tarefas controladas de completude de entrada, sondando o estado final do modelo antes da previsão do próximo token em entradas que abrangem reconhecimento de padrões sintáticos, associações chave-valor e inferência abstrata. Avaliamos ainda em um cenário de perguntas e respostas, examinando o estado do modelo antes e depois da geração de texto. Nossos experimentos mostram que nossa sonda extrai de forma confiável conceitos significativos em diversos LLMs, tamanhos de embeddings e domínios de entrada, também ajudando a identificar falhas dos LLMs. Nosso trabalho avança a decodificação de informações no espaço vetorial dos LLMs, permitindo a extração de recursos mais informativos, interpretáveis e estruturados das representações neurais.
English
Despite their capabilities, Large Language Models (LLMs) remain opaque with
limited understanding of their internal representations. Current
interpretability methods, such as direct logit attribution (DLA) and sparse
autoencoders (SAEs), provide restricted insight due to limitations such as the
model's output vocabulary or unclear feature names. This work introduces
Hyperdimensional Probe, a novel paradigm for decoding information from the LLM
vector space. It combines ideas from symbolic representations and neural
probing to project the model's residual stream into interpretable concepts via
Vector Symbolic Architectures (VSAs). This probe combines the strengths of SAEs
and conventional probes while overcoming their key limitations. We validate our
decoding paradigm with controlled input-completion tasks, probing the model's
final state before next-token prediction on inputs spanning syntactic pattern
recognition, key-value associations, and abstract inference. We further assess
it in a question-answering setting, examining the state of the model both
before and after text generation. Our experiments show that our probe reliably
extracts meaningful concepts across varied LLMs, embedding sizes, and input
domains, also helping identify LLM failures. Our work advances information
decoding in LLM vector space, enabling extracting more informative,
interpretable, and structured features from neural representations.