ChatPaper.aiChatPaper

Detección de Desbordamiento en Representaciones de Tokens Comprimidos para Generación Aumentada por Recuperación

Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation

February 12, 2026
Autores: Julia Belikova, Danila Rozhevskii, Dennis Svirin, Konstantin Polev, Alexander Panchenko
cs.AI

Resumen

El procesamiento eficiente de contextos largos sigue siendo un desafío crucial para los modelos de lenguaje grandes (LLM) contemporáneos, especialmente en entornos con recursos limitados. Las arquitecturas de compresión blanda prometen extender la longitud efectiva del contexto reemplazando secuencias largas de tokens con conjuntos más pequeños de tokens comprimidos aprendidos. Sin embargo, los límites de la compresibilidad —y cuándo la compresión comienza a eliminar contenido relevante para la tarea— siguen estando poco explorados. En este artículo, definimos el desbordamiento de tokens como un régimen en el que las representaciones comprimidas ya no contienen información suficiente para responder a una consulta dada, y proponemos una metodología para caracterizarlo y detectarlo. En el entorno de compresión blanda xRAG, encontramos que las estadísticas de saturación independientes de la consulta separan de manera confiable las representaciones de tokens comprimidos de las no comprimidas, proporcionando una herramienta práctica para identificar tokens comprimidos pero mostrando una capacidad limitada para detectar desbordamiento. Clasificadores de sondeo ligeros sobre las representaciones xRAG tanto de la consulta como del contexto detectan desbordamiento con un AUC-ROC promedio de 0.72 en los conjuntos de datos HotpotQA, SQuADv2 y TriviaQA, demostrando que incorporar información de la consulta mejora el rendimiento de la detección. Estos resultados avanzan desde diagnósticos independientes de la consulta hacia detectores conscientes de ella, permitiendo una selección previa al LLM de bajo coste para mitigar errores inducidos por la compresión.
English
Efficient long-context processing remains a crucial challenge for contemporary large language models (LLMs), especially in resource-constrained environments. Soft compression architectures promise to extend effective context length by replacing long token sequences with smaller sets of learned compressed tokens. Yet, the limits of compressibility -- and when compression begins to erase task-relevant content -- remain underexplored. In this paper, we define token overflow as a regime in which compressed representations no longer contain sufficient information to answer a given query, and propose a methodology to characterize and detect it. In the xRAG soft-compression setting, we find that query-agnostic saturation statistics reliably separate compressed from uncompressed token representations, providing a practical tool for identifying compressed tokens but showing limited overflow detection capability. Lightweight probing classifiers over both query and context xRAG representations detect overflow with 0.72 AUC-ROC on average on HotpotQA, SQuADv2, and TriviaQA datasets, demonstrating that incorporating query information improves detection performance. These results advance from query-independent diagnostics to query-aware detectors, enabling low-cost pre-LLM gating to mitigate compression-induced errors.
PDF11February 19, 2026