BEAVER : Une méthode hiérarchique de compression d'invites sans apprentissage via une sélection de pages structurellement consciente

Résumé

L'expansion exponentielle des fenêtres de contexte dans les LLM a débloqué des capacités de compréhension de documents longs, mais a introduit de sévères goulots d'étranglement en latence d'inférence et en utilisation de l'information. Les méthodes de compression existantes souffrent souvent de coûts d'entraînement élevés ou de fragmentation sémantique due à un élagage agressif des tokens. Dans cet article, nous proposons BEAVER, un nouveau cadre sans entraînement qui déplace la compression d'une suppression linéaire de tokens vers une sélection hiérarchique sensible à la structure. BEAVER maximise le parallélisme matériel en mappant des contextes de longueur variable dans des tenseurs denses au niveau de la page via un pooling à double voie, et préserve l'intégrité du discours grâce à un planificateur hybride combinant une sélection à double branche sémantique et lexicale avec un lissage de phrases. Des évaluations approfondies sur quatre benchmarks à contexte long démontrent que BEAVER atteint des performances comparables aux méthodes de pointe (SOTA) comme LongLLMLingua. Notamment, sur le benchmark RULER, BEAVER maintient une haute fidélité dans la récupération multi-aiguille où les méthodes de référence se dégradent. En termes d'efficacité, BEAVER réduit la latence d'un facteur 26,4 sur des contextes de 128k, offrant une solution évolutive pour les applications à haut débit. Notre code est disponible à l'adresse https://cslikai.cn/BEAVER/.

English

The exponential expansion of context windows in LLMs has unlocked capabilities for long-document understanding but introduced severe bottlenecks in inference latency and information utilization. Existing compression methods often suffer from high training costs or semantic fragmentation due to aggressive token pruning. In this paper, we propose BEAVER, a novel training-free framework that shifts compression from linear token removal to structure-aware hierarchical selection. BEAVER maximizes hardware parallelism by mapping variable-length contexts into dense page-level tensors via dual-path pooling, and preserves discourse integrity through a hybrid planner combining semantic and lexical dual-branch selection with sentence smoothing. Extensive evaluations on four long-context benchmarks demonstrate that BEAVER achieves comparable performance to state-of-the-art (SOTA) methods like LongLLMLingua. Notably, on the RULER benchmark, BEAVER maintains high fidelity in multi-needle retrieval where baselines deteriorate. Regarding efficiency, BEAVER reduces latency by 26.4x on 128k contexts, offering a scalable solution for high-throughput applications. Our code is available at https://cslikai.cn/BEAVER/.

BEAVER : Une méthode hiérarchique de compression d'invites sans apprentissage via une sélection de pages structurellement consciente

BEAVER: A Training-Free Hierarchical Prompt Compression Method via Structure-Aware Page Selection

Résumé

Support