ChatPaper.aiChatPaper

検索拡張生成における圧縮トークン表現のオーバーフロー検出

Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation

February 12, 2026
著者: Julia Belikova, Danila Rozhevskii, Dennis Svirin, Konstantin Polev, Alexander Panchenko
cs.AI

要旨

効率的な長文脈処理は、特にリソース制約のある環境において、現代の大規模言語モデル(LLM)にとって重要な課題であり続けている。ソフト圧縮アーキテクチャは、長いトークン列を学習済みの圧縮トークンの小さな集合で置き換えることで、実効的な文脈長を拡張する可能性を秘めている。しかしながら、圧縮可能性の限界、すなわち圧縮がいつタスク関連の内容を消し始めるかについては、未だ十分に研究されていない。本論文では、圧縮された表現が特定のクエリに答えるのに十分な情報を含まなくなる状態を「トークンオーバーフロー」と定義し、これを特徴付け検出する手法を提案する。xRAGソフト圧縮設定において、クエリ非依存の飽和統計量が、圧縮されたトークン表現と非圧縮のトークン表現を確実に分離できることを見出した。これは圧縮トークンを識別する実用的なツールとなるが、オーバーフロー検出能力は限定的であった。一方、クエリと文脈のxRAG表現の両方に対する軽量なプロービング分類器は、HotpotQA、SQuADv2、TriviaQAデータセットにおいて平均0.72のAUC-ROCでオーバーフローを検出し、クエリ情報を組み込むことで検出性能が向上することを実証した。これらの結果は、クエリ非依存の診断からクエリを考慮した検出器への進歩を示し、圧縮に起因するエラーを軽減する低コストなLLM処理前ゲーティングを可能にする。
English
Efficient long-context processing remains a crucial challenge for contemporary large language models (LLMs), especially in resource-constrained environments. Soft compression architectures promise to extend effective context length by replacing long token sequences with smaller sets of learned compressed tokens. Yet, the limits of compressibility -- and when compression begins to erase task-relevant content -- remain underexplored. In this paper, we define token overflow as a regime in which compressed representations no longer contain sufficient information to answer a given query, and propose a methodology to characterize and detect it. In the xRAG soft-compression setting, we find that query-agnostic saturation statistics reliably separate compressed from uncompressed token representations, providing a practical tool for identifying compressed tokens but showing limited overflow detection capability. Lightweight probing classifiers over both query and context xRAG representations detect overflow with 0.72 AUC-ROC on average on HotpotQA, SQuADv2, and TriviaQA datasets, demonstrating that incorporating query information improves detection performance. These results advance from query-independent diagnostics to query-aware detectors, enabling low-cost pre-LLM gating to mitigate compression-induced errors.
PDF11February 19, 2026