ChatPaper.aiChatPaper

Обнаружение переполнения в сжатых токенных представлениях для поисково-усиленного порождения текста

Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation

February 12, 2026
Авторы: Julia Belikova, Danila Rozhevskii, Dennis Svirin, Konstantin Polev, Alexander Panchenko
cs.AI

Аннотация

Эффективная обработка длинных контекстов остается ключевой проблемой для современных больших языковых моделей (LLM), особенно в условиях ограниченных ресурсов. Архитектуры мягкого сжатия предлагают расширить эффективную длину контекста путем замены длинных последовательностей токенов на меньшие наборы обученных сжатых токенов. Однако пределы сжимаемости — и момент, когда сжатие начинает удалять информацию, релевантную для задачи, — остаются недостаточно изученными. В данной статье мы определяем переполнение токенов как режим, в котором сжатые представления больше не содержат достаточной информации для ответа на заданный запрос, и предлагаем методологию для его характеристики и обнаружения. В условиях мягкого сжатия xRAG мы обнаруживаем, что независимая от запроса статистика насыщения надежно отделяет сжатые представления токенов от несжатых, предоставляя практический инструмент для идентификации сжатых токенов, но демонстрируя ограниченную способность к обнаружению переполнения. Легковесные пробующие классификаторы, работающие с представлениями как запроса, так и контекста xRAG, обнаруживают переполнение со средним значением AUC-ROC 0.72 на наборах данных HotpotQA, SQuADv2 и TriviaQA, что демонстрирует улучшение производительности обнаружения при учете информации запроса. Эти результаты знаменуют переход от независимой от запроса диагностики к детекторам, учитывающим запрос, что позволяет реализовать низкозатратное предварительное ветвление до LLM для минимизации ошибок, вызванных сжатием.
English
Efficient long-context processing remains a crucial challenge for contemporary large language models (LLMs), especially in resource-constrained environments. Soft compression architectures promise to extend effective context length by replacing long token sequences with smaller sets of learned compressed tokens. Yet, the limits of compressibility -- and when compression begins to erase task-relevant content -- remain underexplored. In this paper, we define token overflow as a regime in which compressed representations no longer contain sufficient information to answer a given query, and propose a methodology to characterize and detect it. In the xRAG soft-compression setting, we find that query-agnostic saturation statistics reliably separate compressed from uncompressed token representations, providing a practical tool for identifying compressed tokens but showing limited overflow detection capability. Lightweight probing classifiers over both query and context xRAG representations detect overflow with 0.72 AUC-ROC on average on HotpotQA, SQuADv2, and TriviaQA datasets, demonstrating that incorporating query information improves detection performance. These results advance from query-independent diagnostics to query-aware detectors, enabling low-cost pre-LLM gating to mitigate compression-induced errors.
PDF11February 19, 2026