Гипермерный зонд: декодирование представлений языковых моделей с использованием векторных символьных архитектур
Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures
September 29, 2025
Авторы: Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini
cs.AI
Аннотация
Несмотря на свои возможности, крупные языковые модели (LLM) остаются непрозрачными, с ограниченным пониманием их внутренних представлений. Современные методы интерпретируемости, такие как прямое атрибутирование логитов (DLA) и разреженные автоэнкодеры (SAE), предоставляют ограниченное понимание из-за ограничений, таких как выходной словарь модели или неясные названия признаков. В данной работе представлен Hyperdimensional Probe — новый подход для декодирования информации из векторного пространства LLM. Он объединяет идеи из символических представлений и нейронного зондирования, чтобы проецировать остаточный поток модели в интерпретируемые концепции с использованием векторных символических архитектур (VSA). Этот зонд сочетает преимущества SAE и традиционных зондов, преодолевая их ключевые ограничения. Мы проверяем наш подход декодирования на контролируемых задачах завершения ввода, исследуя финальное состояние модели перед предсказанием следующего токена на входах, охватывающих распознавание синтаксических паттернов, ассоциации ключ-значение и абстрактный вывод. Мы также оцениваем его в контексте вопросно-ответных задач, анализируя состояние модели как до, так и после генерации текста. Наши эксперименты показывают, что наш зонд надежно извлекает значимые концепции в различных LLM, размерах эмбеддингов и областях входных данных, а также помогает выявлять ошибки LLM. Наша работа продвигает декодирование информации в векторном пространстве LLM, позволяя извлекать более информативные, интерпретируемые и структурированные признаки из нейронных представлений.
English
Despite their capabilities, Large Language Models (LLMs) remain opaque with
limited understanding of their internal representations. Current
interpretability methods, such as direct logit attribution (DLA) and sparse
autoencoders (SAEs), provide restricted insight due to limitations such as the
model's output vocabulary or unclear feature names. This work introduces
Hyperdimensional Probe, a novel paradigm for decoding information from the LLM
vector space. It combines ideas from symbolic representations and neural
probing to project the model's residual stream into interpretable concepts via
Vector Symbolic Architectures (VSAs). This probe combines the strengths of SAEs
and conventional probes while overcoming their key limitations. We validate our
decoding paradigm with controlled input-completion tasks, probing the model's
final state before next-token prediction on inputs spanning syntactic pattern
recognition, key-value associations, and abstract inference. We further assess
it in a question-answering setting, examining the state of the model both
before and after text generation. Our experiments show that our probe reliably
extracts meaningful concepts across varied LLMs, embedding sizes, and input
domains, also helping identify LLM failures. Our work advances information
decoding in LLM vector space, enabling extracting more informative,
interpretable, and structured features from neural representations.