BEAVER: Un Método de Compresión Jerárquica de Prompts sin Entrenamiento mediante Selección de Páginas Conscientes de la Estructura

Resumen

La expansión exponencial de las ventanas de contexto en los LLM ha desbloqueado capacidades para la comprensión de documentos largos, pero ha introducido graves cuellos de botella en la latencia de inferencia y la utilización de la información. Los métodos de compresión existentes a menudo adolecen de altos costes de entrenamiento o fragmentación semántica debido a una poda agresiva de tokens. En este artículo, proponemos BEAVER, un novedoso marco de trabajo libre de entrenamiento que traslada la compresión desde la eliminación lineal de tokens a una selección jerárquica consciente de la estructura. BEAVER maximiza el paralelismo del hardware mapeando contextos de longitud variable en tensores densos a nivel de página mediante agrupación de doble vía, y preserva la integridad discursiva a través de un planificador híbrido que combina una selección de doble rama semántica y léxica con suavizado de oraciones. Evaluaciones exhaustivas en cuatro benchmarks de contexto largo demuestran que BEAVER logra un rendimiento comparable a los métodos de última generación (SOTA) como LongLLMLingua. Notablemente, en el benchmark RULER, BEAVER mantiene una alta fidelidad en la recuperación de múltiples agujas, escenario en el que los métodos base se deterioran. En cuanto a la eficiencia, BEAVER reduce la latencia en 26.4x en contextos de 128k tokens, ofreciendo una solución escalable para aplicaciones de alto rendimiento. Nuestro código está disponible en https://cslikai.cn/BEAVER/.

English

The exponential expansion of context windows in LLMs has unlocked capabilities for long-document understanding but introduced severe bottlenecks in inference latency and information utilization. Existing compression methods often suffer from high training costs or semantic fragmentation due to aggressive token pruning. In this paper, we propose BEAVER, a novel training-free framework that shifts compression from linear token removal to structure-aware hierarchical selection. BEAVER maximizes hardware parallelism by mapping variable-length contexts into dense page-level tensors via dual-path pooling, and preserves discourse integrity through a hybrid planner combining semantic and lexical dual-branch selection with sentence smoothing. Extensive evaluations on four long-context benchmarks demonstrate that BEAVER achieves comparable performance to state-of-the-art (SOTA) methods like LongLLMLingua. Notably, on the RULER benchmark, BEAVER maintains high fidelity in multi-needle retrieval where baselines deteriorate. Regarding efficiency, BEAVER reduces latency by 26.4x on 128k contexts, offering a scalable solution for high-throughput applications. Our code is available at https://cslikai.cn/BEAVER/.

BEAVER: Un Método de Compresión Jerárquica de Prompts sin Entrenamiento mediante Selección de Páginas Conscientes de la Estructura

BEAVER: A Training-Free Hierarchical Prompt Compression Method via Structure-Aware Page Selection

Resumen

Support