LLM-Microscope: Revelando el papel oculto de la puntuación en la memoria contextual de los TransformersLLM-Microscope: Uncovering the Hidden Role of Punctuation in Context
Memory of Transformers
Introducimos métodos para cuantificar cómo los Modelos de Lenguaje a Gran Escala (LLMs) codifican y almacenan información contextual, revelando que tokens a menudo considerados menores (por ejemplo, determinantes, puntuación) contienen un contexto sorprendentemente alto. En particular, eliminar estos tokens —especialmente palabras vacías, artículos y comas— degrada consistentemente el rendimiento en MMLU y BABILong-4k, incluso si solo se eliminan tokens irrelevantes. Nuestro análisis también muestra una fuerte correlación entre contextualización y linealidad, donde la linealidad mide cuán cercanamente puede aproximarse la transformación de las incrustaciones de una capa a la siguiente mediante un mapeo lineal único. Estos hallazgos subrayan la importancia oculta de los tokens de relleno en el mantenimiento del contexto. Para una exploración más profunda, presentamos LLM-Microscope, un kit de herramientas de código abierto que evalúa la no linealidad a nivel de token, mide la memoria contextual, visualiza las contribuciones de las capas intermedias (mediante una versión adaptada de Logit Lens) y calcula la dimensionalidad intrínseca de las representaciones. Este kit de herramientas ilumina cómo tokens aparentemente triviales pueden ser críticos para la comprensión de largo alcance.