LLM-Microscoop: Het Verborgen Rol van Interpunctie in Contextgeheugen van Transformers BlootleggenLLM-Microscope: Uncovering the Hidden Role of Punctuation in Context
Memory of Transformers
We introduceren methoden om te kwantificeren hoe Large Language Models (LLM's) contextuele informatie coderen en opslaan, waarbij blijkt dat tokens die vaak als onbeduidend worden gezien (bijvoorbeeld lidwoorden, leestekens) verrassend veel context bevatten. Opmerkelijk is dat het verwijderen van deze tokens — met name stopwoorden, lidwoorden en komma's — consequent de prestaties op MMLU en BABILong-4k verslechtert, zelfs als alleen irrelevante tokens worden verwijderd. Onze analyse toont ook een sterke correlatie tussen contextualisering en lineariteit, waarbij lineariteit meet hoe nauwkeurig de transformatie van de embeddings van de ene laag naar de volgende kan worden benaderd door een enkele lineaire afbeelding. Deze bevindingen onderstrepen het verborgen belang van vul-tokens voor het behoud van context. Voor verder onderzoek presenteren we LLM-Microscope, een open-source toolkit die token-level non-lineariteit beoordeelt, contextueel geheugen evalueert, bijdragen van tussenliggende lagen visualiseert (via een aangepaste Logit Lens) en de intrinsieke dimensionaliteit van representaties meet. Deze toolkit belicht hoe schijnbaar triviale tokens cruciaal kunnen zijn voor begrip op lange termijn.