ChatPaper.aiChatPaper

Erkennung von Überlauf in komprimierten Token-Repräsentationen für retrieval-augmentierte Generierung

Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation

February 12, 2026
papers.authors: Julia Belikova, Danila Rozhevskii, Dennis Svirin, Konstantin Polev, Alexander Panchenko
cs.AI

papers.abstract

Effiziente Verarbeitung langer Kontexte bleibt eine zentrale Herausforderung für moderne große Sprachmodelle (LLMs), insbesondere in ressourcenbeschränkten Umgebungen. Soft-Compression-Architekturen versprechen, die effektive Kontextlänge zu erweitern, indem lange Token-Sequenzen durch kleinere Sätze gelerntier komprimierter Token ersetzt werden. Dennoch sind die Grenzen der Komprimierbarkeit – und wann die Komprimierung beginnt, aufgabenrelevante Inhalte zu löschen – noch unzureichend erforscht. In diesem Artikel definieren wir Token-Überlauf als einen Zustand, in dem komprimierte Repräsentationen nicht mehr ausreichend Informationen enthalten, um eine gegebene Anfrage zu beantworten, und schlagen eine Methodik zu dessen Charakterisierung und Erkennung vor. Im xRAG-Soft-Compression-Setting stellen wir fest, dass anfragenunabhängige Sättigungsstatistiken zuverlässig zwischen komprimierten und unkomprimierten Token-Repräsentationen unterscheiden und somit ein praktisches Werkzeug zur Identifizierung komprimierter Token bieten, jedoch nur begrenzte Fähigkeiten zur Überlauferkennung aufweisen. Leichtgewichtige Probing-Klassifikatoren, die sowohl auf Anfrage- als auch Kontext-xRAG-Repräsentationen angewendet werden, erkennen Überlauf mit durchschnittlich 0,72 AUC-ROC auf den HotpotQA-, SQuADv2- und TriviaQA-Datensätzen. Dies zeigt, dass die Einbeziehung von Anfrageinformationen die Erkennungsleistung verbessert. Diese Ergebnisse markieren einen Fortschritt von anfragenunabhängigen Diagnosen hin zu anfragenbewussten Detektoren und ermöglichen eine kostengünstige Vor-LLM-Steuerung, um komprimierungsbedingte Fehler zu reduzieren.
English
Efficient long-context processing remains a crucial challenge for contemporary large language models (LLMs), especially in resource-constrained environments. Soft compression architectures promise to extend effective context length by replacing long token sequences with smaller sets of learned compressed tokens. Yet, the limits of compressibility -- and when compression begins to erase task-relevant content -- remain underexplored. In this paper, we define token overflow as a regime in which compressed representations no longer contain sufficient information to answer a given query, and propose a methodology to characterize and detect it. In the xRAG soft-compression setting, we find that query-agnostic saturation statistics reliably separate compressed from uncompressed token representations, providing a practical tool for identifying compressed tokens but showing limited overflow detection capability. Lightweight probing classifiers over both query and context xRAG representations detect overflow with 0.72 AUC-ROC on average on HotpotQA, SQuADv2, and TriviaQA datasets, demonstrating that incorporating query information improves detection performance. These results advance from query-independent diagnostics to query-aware detectors, enabling low-cost pre-LLM gating to mitigate compression-induced errors.
PDF11February 19, 2026