LongAttnComp: Cross-familie contextcompressie voor lang-context redeneren

Samenvatting

Aangezien toepassingen in de praktijk steeds vaker de verwerking vereisen van invoer met 100k+ tokens, is de kloof tussen contextlengte en inferentie-efficiëntie een kritiek knelpunt geworden. Contextcompressie biedt een manier om prefill-kosten te verlagen terwijl de taaknauwkeurigheid behouden blijft. Bestaande trainingsvrije, op aandacht gebaseerde methoden laten echter aanzienlijke hiaten ontstaan bij veeleisende lang-context-taken zoals coderedeneren. Wij presenteren LongAttnComp, een aanpassing voor lange contexten van AttnComp die een lichte kruisaandachtsscorelaag finetunet en token-niveau chunking, een tokenbudget top-p algoritme, positionele herordening en een formaat-agnostische query-parser introduceert. Daarnaast ontwerpen we een tweefasige finetuning-methode voor de compressor: Fase 1 bouwt een algemene retrievalbasis op uit NIAH-achtige gegevens, en Fase 2 breidt deze uit met multihop- en redeneergegevens voor een bredere dekking van taken met lange contexten. Op InfiniteBench Code-Debug evenaart of overtreft LongAttnComp de volledige-contextnauwkeurigheid, presteert het aanzienlijk beter dan trainingsvrije baselines, en is het overdraagbaar over vier doelmodellen uit drie families. Op LongBench v2 sluit het tweefasige recept grotendeels de kloof van Fase 1 bij redeneren over meerdere documenten, terwijl de prestaties op Code-Debug behouden blijven.

English

As real-world applications increasingly require processing inputs of 100k+ tokens, the gap between context length and inference efficiency has become a critical bottleneck. Context compression offers a way to reduce prefill costs while preserving task accuracy. However, existing training-free attention-based methods leave substantial gaps in demanding long-context tasks such as code reasoning. We present LongAttnComp, a long-context adaptation of AttnComp that fine-tunes a lightweight cross-attention scoring layer and introduces tokenlevel chunking, a token-budget top-p algorithm, positional reordering, and a formatagnostic query parser. We further design a two-stage fine-tuning recipe for the compressor: Stage 1 builds a general retrieval foundation from NIAH-style data, and Stage 2 extends it with multi-hop and reasoning data for broader long-context task coverage. On InfiniteBench Code-Debug, LongAttnComp matches or exceeds full-context accuracy, substantially outperforms training-free baselines, and transfers across four target models from three families. On LongBench v2, the two-stage recipe largely closes the Stage 1 gap on multi-document reasoning while preserving Code-Debug performance.