ChatPaper.aiChatPaper

LLM-Microscope : Révéler le rôle caché de la ponctuation dans la mémoire contextuelle des Transformers

LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers

February 20, 2025
Auteurs: Anton Razzhigaev, Matvey Mikhalchuk, Temurbek Rahmatullaev, Elizaveta Goncharova, Polina Druzhinina, Ivan Oseledets, Andrey Kuznetsov
cs.AI

Résumé

Nous introduisons des méthodes pour quantifier comment les grands modèles de langage (LLM) encodent et stockent les informations contextuelles, révélant que les tokens souvent considérés comme mineurs (par exemple, les déterminants, la ponctuation) portent un contexte étonnamment élevé. De manière notable, la suppression de ces tokens — en particulier les mots vides, les articles et les virgules — dégrade systématiquement les performances sur MMLU et BABILong-4k, même si seuls les tokens jugés non pertinents sont supprimés. Notre analyse montre également une forte corrélation entre la contextualisation et la linéarité, où la linéarité mesure à quel point la transformation des embeddings d'une couche à la suivante peut être approximée par une seule application linéaire. Ces résultats soulignent l'importance cachée des tokens de remplissage dans le maintien du contexte. Pour approfondir cette exploration, nous présentons LLM-Microscope, une boîte à outils open-source qui évalue la non-linéarité au niveau des tokens, mesure la mémoire contextuelle, visualise les contributions des couches intermédiaires (via une version adaptée du Logit Lens) et quantifie la dimension intrinsèque des représentations. Cet outil met en lumière comment des tokens apparemment triviaux peuvent être essentiels pour la compréhension à long terme.
English
We introduce methods to quantify how Large Language Models (LLMs) encode and store contextual information, revealing that tokens often seen as minor (e.g., determiners, punctuation) carry surprisingly high context. Notably, removing these tokens -- especially stopwords, articles, and commas -- consistently degrades performance on MMLU and BABILong-4k, even if removing only irrelevant tokens. Our analysis also shows a strong correlation between contextualization and linearity, where linearity measures how closely the transformation from one layer's embeddings to the next can be approximated by a single linear mapping. These findings underscore the hidden importance of filler tokens in maintaining context. For further exploration, we present LLM-Microscope, an open-source toolkit that assesses token-level nonlinearity, evaluates contextual memory, visualizes intermediate layer contributions (via an adapted Logit Lens), and measures the intrinsic dimensionality of representations. This toolkit illuminates how seemingly trivial tokens can be critical for long-range understanding.

Summary

AI-Generated Summary

PDF1753February 24, 2025