ChatPaper.aiChatPaper

Detectie van Overflow in Gecomprimeerde Tokenrepresentaties voor Retrieval-Augmented Generation

Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation

February 12, 2026
Auteurs: Julia Belikova, Danila Rozhevskii, Dennis Svirin, Konstantin Polev, Alexander Panchenko
cs.AI

Samenvatting

Efficiënte verwerking van lange contexten blijft een cruciale uitdaging voor hedendaagse grote taalmodellen (LLM's), vooral in omgevingen met beperkte middelen. Zachte compressie-architecturen beloven de effectieve contextlengte te vergroten door lange tokenreeksen te vervangen door kleinere sets aangeleerde gecomprimeerde tokens. De grenzen van comprimeerbaarheid – en wanneer compressie taakrelevante inhoud begint te wissen – blijven echter onderbelicht. In dit artikel definiëren we token-overflow als een regime waarin gecomprimeerde representaties niet langer voldoende informatie bevatten om een gegeven query te beantwoorden, en stellen we een methodologie voor om dit te karakteriseren en detecteren. In de xRAG zachte-compressie-instelling stellen we vast dat query-onafhankelijke saturatiestatistieken betrouwbaar onderscheid maken tussen gecomprimeerde en niet-gecomprimeerde tokenrepresentaties, wat een praktisch hulpmiddel biedt voor het identificeren van gecomprimeerde tokens, maar slechts beperkte overflow-detectiecapaciteit laat zien. Lichtgewicht probing-classificatoren over zowel query- als context-xRAG-representaties detecteren overflow met gemiddeld 0,72 AUC-ROC op de HotpotQA-, SQuADv2- en TriviaQA-datasets, wat aantoont dat het incorporeren van query-informatie de detectieprestaties verbetert. Deze resultaten betekenen een vooruitgang van query-onafhankelijke diagnostiek naar query-bewuste detectoren, waardoor goedkope pre-LLM-gating mogelijk wordt om compressie-gerelateerde fouten te beperken.
English
Efficient long-context processing remains a crucial challenge for contemporary large language models (LLMs), especially in resource-constrained environments. Soft compression architectures promise to extend effective context length by replacing long token sequences with smaller sets of learned compressed tokens. Yet, the limits of compressibility -- and when compression begins to erase task-relevant content -- remain underexplored. In this paper, we define token overflow as a regime in which compressed representations no longer contain sufficient information to answer a given query, and propose a methodology to characterize and detect it. In the xRAG soft-compression setting, we find that query-agnostic saturation statistics reliably separate compressed from uncompressed token representations, providing a practical tool for identifying compressed tokens but showing limited overflow detection capability. Lightweight probing classifiers over both query and context xRAG representations detect overflow with 0.72 AUC-ROC on average on HotpotQA, SQuADv2, and TriviaQA datasets, demonstrating that incorporating query information improves detection performance. These results advance from query-independent diagnostics to query-aware detectors, enabling low-cost pre-LLM gating to mitigate compression-induced errors.
PDF12March 25, 2026