LongAttnComp : Compression de contexte inter-famille pour le raisonnement sur de longs contextes

Résumé

Alors que les applications réelles exigent de plus en plus le traitement d'entrées de 100 000 tokens ou plus, le fossé entre la longueur du contexte et l'efficacité d'inférence est devenu un goulot d'étranglement critique. La compression de contexte offre un moyen de réduire les coûts de préremplissage tout en préservant la précision des tâches. Cependant, les méthodes existantes basées sur l'attention et sans entraînement laissent des lacunes importantes dans les tâches exigeantes à long contexte, telles que le raisonnement sur du code. Nous présentons LongAttnComp, une adaptation de AttnComp pour les longs contextes, qui ajuste finement une couche légère de scoring par attention croisée et introduit un découpage au niveau des tokens, un algorithme top-p avec budget de tokens, un réordonnancement positionnel, et un analyseur de requêtes indépendant du format. Nous concevons en outre une recette de fine-tuning en deux étapes pour le compresseur : l'étape 1 établit une base de récupération générale à partir de données de type NIAH, et l'étape 2 l'étend avec des données multi-sauts et de raisonnement pour une couverture plus large des tâches à long contexte. Sur InfiniteBench Code-Debug, LongAttnComp égal ou dépasse la précision du contexte complet, surpasse nettement les références sans entraînement, et se transfère sur quatre modèles cibles issus de trois familles. Sur LongBench v2, la recette en deux étapes comble en grande partie l'écart de l'étape 1 sur le raisonnement multi-documents tout en préservant la performance sur Code-Debug.

English

As real-world applications increasingly require processing inputs of 100k+ tokens, the gap between context length and inference efficiency has become a critical bottleneck. Context compression offers a way to reduce prefill costs while preserving task accuracy. However, existing training-free attention-based methods leave substantial gaps in demanding long-context tasks such as code reasoning. We present LongAttnComp, a long-context adaptation of AttnComp that fine-tunes a lightweight cross-attention scoring layer and introduces tokenlevel chunking, a token-budget top-p algorithm, positional reordering, and a formatagnostic query parser. We further design a two-stage fine-tuning recipe for the compressor: Stage 1 builds a general retrieval foundation from NIAH-style data, and Stage 2 extends it with multi-hop and reasoning data for broader long-context task coverage. On InfiniteBench Code-Debug, LongAttnComp matches or exceeds full-context accuracy, substantially outperforms training-free baselines, and transfers across four target models from three families. On LongBench v2, the two-stage recipe largely closes the Stage 1 gap on multi-document reasoning while preserving Code-Debug performance.