ChatPaper.aiChatPaper

검색 증대 생성에서 압축 토큰 표현의 오버플로 감지

Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation

February 12, 2026
저자: Julia Belikova, Danila Rozhevskii, Dennis Svirin, Konstantin Polev, Alexander Panchenko
cs.AI

초록

효율적인 장문맥 처리, 특히 자원이 제한된 환경에서의 처리 능력은 현대 대규모 언어 모델(LLM)의 중요한 과제로 남아 있다. 소프트 압축 아키텍처는 긴 토큰 시퀀스를 학습된 압축 토큰의 더 작은 집합으로 대체함으로써 효과적인 맥락 길이를 확장할 것을 약속한다. 그러나 압축 가능성의 한계와 압축이 작업 관련 콘텐츠를 삭제하기 시작하는 시점은 여전히 충분히 연구되지 않았다. 본 논문에서는 압축된 표현이 주어진 질의에 답하기에 충분한 정보를 더 이상 포함하지 않는 체제를 토큰 오버플로로 정의하고, 이를 특성화하고 탐지하는 방법론을 제안한다. xRAG 소프트 압축 환경에서 질의-무관한 포화 통계는 압축된 토큰 표현과 압축되지 않은 토큰 표현을 안정적으로 구분하여 압축 토큰을 식별하는 실용적인 도구를 제공하지만, 오버플로 탐지 능력은 제한적인 것으로 나타났다. 질의 및 맥락 xRAG 표현에 대한 경량 프로빙 분류기는 HotpotQA, SQuADv2, TriviaQA 데이터셋에서 평균 0.72 AUC-ROC로 오버플로를 탐지하여 질의 정보를 통합하면 탐지 성능이 향상됨을 입증한다. 이러한 결과는 질의-독립적 진단에서 질의-인식 탐지기로의 발전을 의미하며, 압축으로 인한 오류를 완화하기 위한 저비용의 LLM 사전 게이팅을 가능하게 한다.
English
Efficient long-context processing remains a crucial challenge for contemporary large language models (LLMs), especially in resource-constrained environments. Soft compression architectures promise to extend effective context length by replacing long token sequences with smaller sets of learned compressed tokens. Yet, the limits of compressibility -- and when compression begins to erase task-relevant content -- remain underexplored. In this paper, we define token overflow as a regime in which compressed representations no longer contain sufficient information to answer a given query, and propose a methodology to characterize and detect it. In the xRAG soft-compression setting, we find that query-agnostic saturation statistics reliably separate compressed from uncompressed token representations, providing a practical tool for identifying compressed tokens but showing limited overflow detection capability. Lightweight probing classifiers over both query and context xRAG representations detect overflow with 0.72 AUC-ROC on average on HotpotQA, SQuADv2, and TriviaQA datasets, demonstrating that incorporating query information improves detection performance. These results advance from query-independent diagnostics to query-aware detectors, enabling low-cost pre-LLM gating to mitigate compression-induced errors.
PDF11February 19, 2026