Detecção de Estouro em Representações de Tokens Comprimidos para Geração Aumentada por Recuperação
Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation
February 12, 2026
Autores: Julia Belikova, Danila Rozhevskii, Dennis Svirin, Konstantin Polev, Alexander Panchenko
cs.AI
Resumo
O processamento eficiente de contexto longo continua a ser um desafio crucial para os modelos de linguagem de grande escala (LLMs) contemporâneos, especialmente em ambientes com recursos limitados. As arquiteturas de compressão suave prometem estender o comprimento efetivo do contexto substituindo longas sequências de *tokens* por conjuntos menores de *tokens* comprimidos aprendidos. No entanto, os limites da compressibilidade — e quando a compressão começa a eliminar conteúdo relevante para a tarefa — permanecem pouco explorados. Neste artigo, definimos *token overflow* (transbordamento de *tokens*) como um regime no qual as representações comprimidas não contêm mais informações suficientes para responder a uma consulta específica e propomos uma metodologia para caracterizá-lo e detetá-lo. No cenário de compressão suave xRAG, descobrimos que as estatísticas de saturação independentes da consulta separam de forma confiável as representações de *tokens* comprimidas das não comprimidas, fornecendo uma ferramenta prática para identificar *tokens* comprimidos, mas mostrando capacidade limitada de deteção de *overflow*. Classificadores de sondagem leves aplicados às representações xRAG da consulta e do contexto detetam o *overflow* com uma AUC-ROC média de 0,72 nos conjuntos de dados HotpotQA, SQuADv2 e TriviaQA, demonstrando que a incorporação de informações da consulta melhora o desempenho da deteção. Estes resultados representam um avanço em relação a diagnósticos independentes da consulta para detetores conscientes da consulta, permitindo um pré-*gateamento* de baixo custo antes do LLM para mitigar erros induzidos pela compressão.
English
Efficient long-context processing remains a crucial challenge for contemporary large language models (LLMs), especially in resource-constrained environments. Soft compression architectures promise to extend effective context length by replacing long token sequences with smaller sets of learned compressed tokens. Yet, the limits of compressibility -- and when compression begins to erase task-relevant content -- remain underexplored. In this paper, we define token overflow as a regime in which compressed representations no longer contain sufficient information to answer a given query, and propose a methodology to characterize and detect it. In the xRAG soft-compression setting, we find that query-agnostic saturation statistics reliably separate compressed from uncompressed token representations, providing a practical tool for identifying compressed tokens but showing limited overflow detection capability. Lightweight probing classifiers over both query and context xRAG representations detect overflow with 0.72 AUC-ROC on average on HotpotQA, SQuADv2, and TriviaQA datasets, demonstrating that incorporating query information improves detection performance. These results advance from query-independent diagnostics to query-aware detectors, enabling low-cost pre-LLM gating to mitigate compression-induced errors.