ChatPaper.aiChatPaper

LLM-Microscope: Revelando el papel oculto de la puntuación en la memoria contextual de los Transformers

LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers

February 20, 2025
Autores: Anton Razzhigaev, Matvey Mikhalchuk, Temurbek Rahmatullaev, Elizaveta Goncharova, Polina Druzhinina, Ivan Oseledets, Andrey Kuznetsov
cs.AI

Resumen

Introducimos métodos para cuantificar cómo los Modelos de Lenguaje a Gran Escala (LLMs) codifican y almacenan información contextual, revelando que tokens a menudo considerados menores (por ejemplo, determinantes, puntuación) contienen un contexto sorprendentemente alto. En particular, eliminar estos tokens —especialmente palabras vacías, artículos y comas— degrada consistentemente el rendimiento en MMLU y BABILong-4k, incluso si solo se eliminan tokens irrelevantes. Nuestro análisis también muestra una fuerte correlación entre contextualización y linealidad, donde la linealidad mide cuán cercanamente puede aproximarse la transformación de las incrustaciones de una capa a la siguiente mediante un mapeo lineal único. Estos hallazgos subrayan la importancia oculta de los tokens de relleno en el mantenimiento del contexto. Para una exploración más profunda, presentamos LLM-Microscope, un kit de herramientas de código abierto que evalúa la no linealidad a nivel de token, mide la memoria contextual, visualiza las contribuciones de las capas intermedias (mediante una versión adaptada de Logit Lens) y calcula la dimensionalidad intrínseca de las representaciones. Este kit de herramientas ilumina cómo tokens aparentemente triviales pueden ser críticos para la comprensión de largo alcance.
English
We introduce methods to quantify how Large Language Models (LLMs) encode and store contextual information, revealing that tokens often seen as minor (e.g., determiners, punctuation) carry surprisingly high context. Notably, removing these tokens -- especially stopwords, articles, and commas -- consistently degrades performance on MMLU and BABILong-4k, even if removing only irrelevant tokens. Our analysis also shows a strong correlation between contextualization and linearity, where linearity measures how closely the transformation from one layer's embeddings to the next can be approximated by a single linear mapping. These findings underscore the hidden importance of filler tokens in maintaining context. For further exploration, we present LLM-Microscope, an open-source toolkit that assesses token-level nonlinearity, evaluates contextual memory, visualizes intermediate layer contributions (via an adapted Logit Lens), and measures the intrinsic dimensionality of representations. This toolkit illuminates how seemingly trivial tokens can be critical for long-range understanding.

Summary

AI-Generated Summary

PDF1753February 24, 2025