LLM-Microscope: Revelando el papel oculto de la puntuación en la memoria contextual de los Transformers
LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers
February 20, 2025
Autores: Anton Razzhigaev, Matvey Mikhalchuk, Temurbek Rahmatullaev, Elizaveta Goncharova, Polina Druzhinina, Ivan Oseledets, Andrey Kuznetsov
cs.AI
Resumen
Introducimos métodos para cuantificar cómo los Modelos de Lenguaje a Gran Escala (LLMs) codifican y almacenan información contextual, revelando que tokens a menudo considerados menores (por ejemplo, determinantes, puntuación) contienen un contexto sorprendentemente alto. En particular, eliminar estos tokens —especialmente palabras vacías, artículos y comas— degrada consistentemente el rendimiento en MMLU y BABILong-4k, incluso si solo se eliminan tokens irrelevantes. Nuestro análisis también muestra una fuerte correlación entre contextualización y linealidad, donde la linealidad mide cuán cercanamente puede aproximarse la transformación de las incrustaciones de una capa a la siguiente mediante un mapeo lineal único. Estos hallazgos subrayan la importancia oculta de los tokens de relleno en el mantenimiento del contexto. Para una exploración más profunda, presentamos LLM-Microscope, un kit de herramientas de código abierto que evalúa la no linealidad a nivel de token, mide la memoria contextual, visualiza las contribuciones de las capas intermedias (mediante una versión adaptada de Logit Lens) y calcula la dimensionalidad intrínseca de las representaciones. Este kit de herramientas ilumina cómo tokens aparentemente triviales pueden ser críticos para la comprensión de largo alcance.
English
We introduce methods to quantify how Large Language Models (LLMs) encode and
store contextual information, revealing that tokens often seen as minor (e.g.,
determiners, punctuation) carry surprisingly high context. Notably, removing
these tokens -- especially stopwords, articles, and commas -- consistently
degrades performance on MMLU and BABILong-4k, even if removing only irrelevant
tokens. Our analysis also shows a strong correlation between contextualization
and linearity, where linearity measures how closely the transformation from one
layer's embeddings to the next can be approximated by a single linear mapping.
These findings underscore the hidden importance of filler tokens in maintaining
context. For further exploration, we present LLM-Microscope, an open-source
toolkit that assesses token-level nonlinearity, evaluates contextual memory,
visualizes intermediate layer contributions (via an adapted Logit Lens), and
measures the intrinsic dimensionality of representations. This toolkit
illuminates how seemingly trivial tokens can be critical for long-range
understanding.Summary
AI-Generated Summary