Rilevamento dell'Overflow nelle Rappresentazioni Token Compresse per la Generazione Aumentata con Recupero
Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation
February 12, 2026
Autori: Julia Belikova, Danila Rozhevskii, Dennis Svirin, Konstantin Polev, Alexander Panchenko
cs.AI
Abstract
L'elaborazione efficiente di contesti lunghi rimane una sfida cruciale per i moderni grandi modelli linguistici (LLM), specialmente in ambienti con risorse limitate. Le architetture a compressione soft promettono di estendere la lunghezza effettiva del contesto sostituendo lunghe sequenze di token con insiemi più piccoli di token compressi appresi. Tuttavia, i limiti della comprimibilità – e quando la compressione inizia a cancellare contenuti rilevanti per il task – rimangono poco esplorati. In questo articolo, definiamo l'overflow di token come un regime in cui le rappresentazioni compresse non contengono più informazioni sufficienti per rispondere a una determinata query, e proponiamo una metodologia per caratterizzarlo e rilevarlo. Nell'ambito della compressione soft xRAG, scopriamo che le statistiche di saturazione indipendenti dalla query separano in modo affidabile le rappresentazioni di token compresse da quelle non compresse, fornendo uno strumento pratico per identificare i token compressi ma mostrando una capacità limitata di rilevamento dell'overflow. Classificatori di probing leggeri applicati sia alle rappresentazioni della query che del contesto in xRAG rilevano l'overflow con una media di 0.72 AUC-ROC sui dataset HotpotQA, SQuADv2 e TriviaQA, dimostrando che l'incorporazione delle informazioni della query migliora le prestazioni di rilevamento. Questi risultati rappresentano un avanzamento dalle diagnostiche indipendenti dalla query a rilevatori query-aware, abilitando un gating pre-LLM a basso costo per mitigare gli errori indotti dalla compressione.
English
Efficient long-context processing remains a crucial challenge for contemporary large language models (LLMs), especially in resource-constrained environments. Soft compression architectures promise to extend effective context length by replacing long token sequences with smaller sets of learned compressed tokens. Yet, the limits of compressibility -- and when compression begins to erase task-relevant content -- remain underexplored. In this paper, we define token overflow as a regime in which compressed representations no longer contain sufficient information to answer a given query, and propose a methodology to characterize and detect it. In the xRAG soft-compression setting, we find that query-agnostic saturation statistics reliably separate compressed from uncompressed token representations, providing a practical tool for identifying compressed tokens but showing limited overflow detection capability. Lightweight probing classifiers over both query and context xRAG representations detect overflow with 0.72 AUC-ROC on average on HotpotQA, SQuADv2, and TriviaQA datasets, demonstrating that incorporating query information improves detection performance. These results advance from query-independent diagnostics to query-aware detectors, enabling low-cost pre-LLM gating to mitigate compression-induced errors.