ChatPaper.aiChatPaper

BEAVER: 구조 인식 페이지 선택 기반의 훈련 불필요 계층형 프롬프트 압축 방법

BEAVER: A Training-Free Hierarchical Prompt Compression Method via Structure-Aware Page Selection

March 20, 2026
저자: Zhengpei Hu, Kai Li, Dapeng Fu, Chang Zeng, Yue Li, Yuanhao Tang, Jianqiang Huang
cs.AI

초록

LLM의 컨텍스트 윈도우 확장은 장문 문서 이해 능력을 개방했지만, 추론 지연 시간과 정보 활용 측면에서 심각한 병목 현상을 초래했습니다. 기존 압축 방법은 과감한 토큰 제거로 인해 높은 학습 비용이나 의미 단편화 문제를 겪는 경우가 많습니다. 본 논문에서는 압축 방식을 선형적인 토큰 제거에서 구조 인식 계층적 선택으로 전환하는 새로운 학습 불필요 프레임워크인 BEAVER를 제안합니다. BEAVER는 이중 경로 풀링을 통해 가변 길이 컨텍스트를 페이지 수준의 조밀한 텐서로 매핑하여 하드웨어 병렬 처리를 극대화하고, 의미 및 어휘 이중 분기 선택과 문장 평활화를 결합한 하이브리드 플래너를 통해 담화 무결성을 보존합니다. 4가지 장문 컨텍스트 벤치마크에 대한 포괄적 평가 결과, BEAVER는 LongLLMLingua와 같은 최첨단(SOTA) 방법과 유사한 성능을 달성함을 확인했습니다. 특히 RULER 벤치마크에서 BEAVER는 기준 방법들이 성능이 저하되는 다중 니들 검색 상황에서도 높은 정확도를 유지했습니다. 효율성 측면에서 BEAVER는 128k 컨텍스트 기준으로 지연 시간을 26.4배 감소시켜 높은 처리량이 필요한 응용 프로그램에 확장 가능한 솔루션을 제공합니다. 구현 코드는 https://cslikai.cn/BEAVER/에서 확인할 수 있습니다.
English
The exponential expansion of context windows in LLMs has unlocked capabilities for long-document understanding but introduced severe bottlenecks in inference latency and information utilization. Existing compression methods often suffer from high training costs or semantic fragmentation due to aggressive token pruning. In this paper, we propose BEAVER, a novel training-free framework that shifts compression from linear token removal to structure-aware hierarchical selection. BEAVER maximizes hardware parallelism by mapping variable-length contexts into dense page-level tensors via dual-path pooling, and preserves discourse integrity through a hybrid planner combining semantic and lexical dual-branch selection with sentence smoothing. Extensive evaluations on four long-context benchmarks demonstrate that BEAVER achieves comparable performance to state-of-the-art (SOTA) methods like LongLLMLingua. Notably, on the RULER benchmark, BEAVER maintains high fidelity in multi-needle retrieval where baselines deteriorate. Regarding efficiency, BEAVER reduces latency by 26.4x on 128k contexts, offering a scalable solution for high-throughput applications. Our code is available at https://cslikai.cn/BEAVER/.
PDF102March 24, 2026