LLM-Microscope: Revelando o Papel Oculto da Pontuação na Memória de Contexto dos Transformers
LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers
February 20, 2025
Autores: Anton Razzhigaev, Matvey Mikhalchuk, Temurbek Rahmatullaev, Elizaveta Goncharova, Polina Druzhinina, Ivan Oseledets, Andrey Kuznetsov
cs.AI
Resumo
Apresentamos métodos para quantificar como os Modelos de Linguagem de Grande Escala (LLMs) codificam e armazenam informações contextuais, revelando que tokens frequentemente considerados menores (por exemplo, determinantes, pontuação) carregam um contexto surpreendentemente alto. Notavelmente, a remoção desses tokens — especialmente stopwords, artigos e vírgulas — consistentemente degrada o desempenho em MMLU e BABILong-4k, mesmo que apenas tokens irrelevantes sejam removidos. Nossa análise também mostra uma forte correlação entre contextualização e linearidade, onde a linearidade mede o quão próxima a transformação dos embeddings de uma camada para a próxima pode ser aproximada por um mapeamento linear único. Essas descobertas destacam a importância oculta dos tokens de preenchimento na manutenção do contexto. Para exploração adicional, apresentamos o LLM-Microscope, um kit de ferramentas de código aberto que avalia a não linearidade em nível de token, avalia a memória contextual, visualiza as contribuições das camadas intermediárias (por meio de uma versão adaptada do Logit Lens) e mede a dimensionalidade intrínseca das representações. Esse kit de ferramentas ilumina como tokens aparentemente triviais podem ser críticos para o entendimento de longo alcance.
English
We introduce methods to quantify how Large Language Models (LLMs) encode and
store contextual information, revealing that tokens often seen as minor (e.g.,
determiners, punctuation) carry surprisingly high context. Notably, removing
these tokens -- especially stopwords, articles, and commas -- consistently
degrades performance on MMLU and BABILong-4k, even if removing only irrelevant
tokens. Our analysis also shows a strong correlation between contextualization
and linearity, where linearity measures how closely the transformation from one
layer's embeddings to the next can be approximated by a single linear mapping.
These findings underscore the hidden importance of filler tokens in maintaining
context. For further exploration, we present LLM-Microscope, an open-source
toolkit that assesses token-level nonlinearity, evaluates contextual memory,
visualizes intermediate layer contributions (via an adapted Logit Lens), and
measures the intrinsic dimensionality of representations. This toolkit
illuminates how seemingly trivial tokens can be critical for long-range
understanding.Summary
AI-Generated Summary