ChatPaper.aiChatPaper

LLM-Microscope: Раскрытие скрытой роли пунктуации в контекстной памяти трансформеров

LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers

February 20, 2025
Авторы: Anton Razzhigaev, Matvey Mikhalchuk, Temurbek Rahmatullaev, Elizaveta Goncharova, Polina Druzhinina, Ivan Oseledets, Andrey Kuznetsov
cs.AI

Аннотация

Мы представляем методы для количественной оценки того, как крупные языковые модели (LLM) кодируют и сохраняют контекстную информацию, показывая, что токены, часто считающиеся второстепенными (например, артикли, пунктуация), несут удивительно высокий контекст. Примечательно, что удаление этих токенов — особенно стоп-слов, артиклов и запятых — последовательно ухудшает производительность на тестах MMLU и BABILong-4k, даже если удаляются только нерелевантные токены. Наш анализ также демонстрирует сильную корреляцию между контекстуализацией и линейностью, где линейность измеряет, насколько близко преобразование от эмбеддингов одного слоя к следующему может быть аппроксимировано с помощью одного линейного отображения. Эти результаты подчеркивают скрытую важность "заполняющих" токенов для поддержания контекста. Для дальнейшего исследования мы представляем LLM-Microscope — открытый инструментарий, который оценивает нелинейность на уровне токенов, анализирует контекстуальную память, визуализирует вклад промежуточных слоев (с помощью адаптированного Logit Lens) и измеряет внутреннюю размерность представлений. Этот инструментарий проливает свет на то, как кажущиеся незначительными токены могут быть критически важны для понимания на больших дистанциях.
English
We introduce methods to quantify how Large Language Models (LLMs) encode and store contextual information, revealing that tokens often seen as minor (e.g., determiners, punctuation) carry surprisingly high context. Notably, removing these tokens -- especially stopwords, articles, and commas -- consistently degrades performance on MMLU and BABILong-4k, even if removing only irrelevant tokens. Our analysis also shows a strong correlation between contextualization and linearity, where linearity measures how closely the transformation from one layer's embeddings to the next can be approximated by a single linear mapping. These findings underscore the hidden importance of filler tokens in maintaining context. For further exploration, we present LLM-Microscope, an open-source toolkit that assesses token-level nonlinearity, evaluates contextual memory, visualizes intermediate layer contributions (via an adapted Logit Lens), and measures the intrinsic dimensionality of representations. This toolkit illuminates how seemingly trivial tokens can be critical for long-range understanding.

Summary

AI-Generated Summary

PDF1753February 24, 2025