Sonda Iperdimensionale: Decodifica delle Rappresentazioni dei Modelli Linguistici attraverso Architetture Simboliche Vettoriali
Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures
September 29, 2025
Autori: Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini
cs.AI
Abstract
Nonostante le loro capacità, i Large Language Models (LLM) rimangono opachi, con una comprensione limitata delle loro rappresentazioni interne. I metodi attuali di interpretabilità, come l'attribuzione diretta dei logit (DLA) e gli autoencoder sparsi (SAE), offrono un'analisi ristretta a causa di limitazioni come il vocabolario di output del modello o i nomi poco chiari delle feature. Questo lavoro introduce Hyperdimensional Probe, un nuovo paradigma per decodificare le informazioni dallo spazio vettoriale degli LLM. Combina idee dalle rappresentazioni simboliche e dal probing neurale per proiettare il flusso residuo del modello in concetti interpretabili tramite le Vector Symbolic Architectures (VSA). Questa sonda unisce i punti di forza degli SAE e delle sonde convenzionali superandone le principali limitazioni. Validiamo il nostro paradigma di decodifica con task controllati di completamento dell'input, sondando lo stato finale del modello prima della previsione del token successivo su input che spaziano dal riconoscimento di pattern sintattici, associazioni chiave-valore e inferenza astratta. Lo valutiamo ulteriormente in un contesto di risposta alle domande, esaminando lo stato del modello sia prima che dopo la generazione del testo. I nostri esperimenti dimostrano che la nostra sonda estrae in modo affidabile concetti significativi attraverso diversi LLM, dimensioni di embedding e domini di input, aiutando anche a identificare i fallimenti degli LLM. Il nostro lavoro avanza la decodifica delle informazioni nello spazio vettoriale degli LLM, consentendo di estrarre feature più informative, interpretabili e strutturate dalle rappresentazioni neurali.
English
Despite their capabilities, Large Language Models (LLMs) remain opaque with
limited understanding of their internal representations. Current
interpretability methods, such as direct logit attribution (DLA) and sparse
autoencoders (SAEs), provide restricted insight due to limitations such as the
model's output vocabulary or unclear feature names. This work introduces
Hyperdimensional Probe, a novel paradigm for decoding information from the LLM
vector space. It combines ideas from symbolic representations and neural
probing to project the model's residual stream into interpretable concepts via
Vector Symbolic Architectures (VSAs). This probe combines the strengths of SAEs
and conventional probes while overcoming their key limitations. We validate our
decoding paradigm with controlled input-completion tasks, probing the model's
final state before next-token prediction on inputs spanning syntactic pattern
recognition, key-value associations, and abstract inference. We further assess
it in a question-answering setting, examining the state of the model both
before and after text generation. Our experiments show that our probe reliably
extracts meaningful concepts across varied LLMs, embedding sizes, and input
domains, also helping identify LLM failures. Our work advances information
decoding in LLM vector space, enabling extracting more informative,
interpretable, and structured features from neural representations.