ChatPaper.aiChatPaper

Détection de dépassement dans les représentations de tokens compressés pour la génération augmentée par la recherche

Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation

February 12, 2026
papers.authors: Julia Belikova, Danila Rozhevskii, Dennis Svirin, Konstantin Polev, Alexander Panchenko
cs.AI

papers.abstract

Le traitement efficace de contextes longs reste un défi crucial pour les grands modèles de langage (LLM) contemporains, particulièrement dans des environnements à ressources limitées. Les architectures de compression douce promettent d'étendre la longueur de contexte effective en remplaçant de longues séquences de tokens par des ensembles plus réduits de tokens compressés appris. Pourtant, les limites de la compressibilité – et le moment où la compression commence à effacer le contenu pertinent pour la tâche – restent insuffisamment explorées. Dans cet article, nous définissons le débordement de tokens comme un régime dans lequel les représentations compressées ne contiennent plus suffisamment d'informations pour répondre à une requête donnée, et nous proposons une méthodologie pour le caractériser et le détecter. Dans le cadre de la compression douce xRAG, nous constatons que les statistiques de saturation indépendantes de la requête séparent de manière fiable les représentations de tokens compressés des non compressés, fournissant un outil pratique pour identifier les tokens compressés mais montrant une capacité limitée de détection de débordement. Des classifieurs sonde légers appliqués aux représentations xRAG de la requête et du contexte détectent le débordement avec une AUC-ROC moyenne de 0,72 sur les jeux de données HotpotQA, SQuADv2 et TriviaQA, démontrant que l'intégration d'informations de la requête améliore les performances de détection. Ces résultats marquent une avancée des diagnostics indépendants de la requête vers des détecteurs sensibles à la requête, permettant un pré-filtrage peu coûteux en amont du LLM pour atténuer les erreurs induites par la compression.
English
Efficient long-context processing remains a crucial challenge for contemporary large language models (LLMs), especially in resource-constrained environments. Soft compression architectures promise to extend effective context length by replacing long token sequences with smaller sets of learned compressed tokens. Yet, the limits of compressibility -- and when compression begins to erase task-relevant content -- remain underexplored. In this paper, we define token overflow as a regime in which compressed representations no longer contain sufficient information to answer a given query, and propose a methodology to characterize and detect it. In the xRAG soft-compression setting, we find that query-agnostic saturation statistics reliably separate compressed from uncompressed token representations, providing a practical tool for identifying compressed tokens but showing limited overflow detection capability. Lightweight probing classifiers over both query and context xRAG representations detect overflow with 0.72 AUC-ROC on average on HotpotQA, SQuADv2, and TriviaQA datasets, demonstrating that incorporating query information improves detection performance. These results advance from query-independent diagnostics to query-aware detectors, enabling low-cost pre-LLM gating to mitigate compression-induced errors.
PDF11February 19, 2026