ChatPaper.aiChatPaper

LLM-Microscoop: Het Verborgen Rol van Interpunctie in Contextgeheugen van Transformers Blootleggen

LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers

February 20, 2025
Auteurs: Anton Razzhigaev, Matvey Mikhalchuk, Temurbek Rahmatullaev, Elizaveta Goncharova, Polina Druzhinina, Ivan Oseledets, Andrey Kuznetsov
cs.AI

Samenvatting

We introduceren methoden om te kwantificeren hoe Large Language Models (LLM's) contextuele informatie coderen en opslaan, waarbij blijkt dat tokens die vaak als onbeduidend worden gezien (bijvoorbeeld lidwoorden, leestekens) verrassend veel context bevatten. Opmerkelijk is dat het verwijderen van deze tokens — met name stopwoorden, lidwoorden en komma's — consequent de prestaties op MMLU en BABILong-4k verslechtert, zelfs als alleen irrelevante tokens worden verwijderd. Onze analyse toont ook een sterke correlatie tussen contextualisering en lineariteit, waarbij lineariteit meet hoe nauwkeurig de transformatie van de embeddings van de ene laag naar de volgende kan worden benaderd door een enkele lineaire afbeelding. Deze bevindingen onderstrepen het verborgen belang van vul-tokens voor het behoud van context. Voor verder onderzoek presenteren we LLM-Microscope, een open-source toolkit die token-level non-lineariteit beoordeelt, contextueel geheugen evalueert, bijdragen van tussenliggende lagen visualiseert (via een aangepaste Logit Lens) en de intrinsieke dimensionaliteit van representaties meet. Deze toolkit belicht hoe schijnbaar triviale tokens cruciaal kunnen zijn voor begrip op lange termijn.
English
We introduce methods to quantify how Large Language Models (LLMs) encode and store contextual information, revealing that tokens often seen as minor (e.g., determiners, punctuation) carry surprisingly high context. Notably, removing these tokens -- especially stopwords, articles, and commas -- consistently degrades performance on MMLU and BABILong-4k, even if removing only irrelevant tokens. Our analysis also shows a strong correlation between contextualization and linearity, where linearity measures how closely the transformation from one layer's embeddings to the next can be approximated by a single linear mapping. These findings underscore the hidden importance of filler tokens in maintaining context. For further exploration, we present LLM-Microscope, an open-source toolkit that assesses token-level nonlinearity, evaluates contextual memory, visualizes intermediate layer contributions (via an adapted Logit Lens), and measures the intrinsic dimensionality of representations. This toolkit illuminates how seemingly trivial tokens can be critical for long-range understanding.

Summary

AI-Generated Summary

PDF1753February 24, 2025