LongAttnComp: Familienübergreifende Kontextkomprimierung für Reasoning mit langem Kontext

Zusammenfassung

Da reale Anwendungen zunehmend die Verarbeitung von Eingaben mit 100k+ Tokens erfordern, wird die Kluft zwischen Kontextlänge und Inferenzeffizienz zu einem kritischen Engpass. Kontextkomprimierung bietet einen Weg, die Prefill-Kosten zu senken, während die Aufgaben-Genauigkeit erhalten bleibt. Allerdings weisen bestehende trainingsfreie, auf Aufmerksamkeit basierende Methoden erhebliche Lücken bei anspruchsvollen Langkontext-Aufgaben wie dem logischen Schließen über Code auf. Wir stellen LongAttnComp vor, eine auf Langkontexte adaptierte Version von AttnComp, die eine leichtgewichtige, auf Kreuzaufmerksamkeit basierende Bewertungsschicht feinabstimmt und tokenweises Chunking, einen Token-Budget-Top-p-Algorithmus, positionsbezogene Neuordnung sowie einen formatagnostischen Abfrage-Parser einführt. Darüber hinaus entwerfen wir ein zweistufiges Feinabstimmungsrezept für den Kompressor: Stufe 1 baut eine allgemeine Retrieval-Grundlage aus NIAH-artigen Daten auf, und Stufe 2 erweitert diese mit Multi-Hop- und Reasoning-Daten für eine breitere Abdeckung von Langkontext-Aufgaben. Auf InfiniteBench Code-Debug erreicht LongAttnComp die Genauigkeit des Vollkontexts oder übertrifft sie, übertrifft trainingsfreie Basislinien deutlich und überträgt sich auf vier Zielmodelle aus drei Familien. Auf LongBench v2 schließt das zweistufige Rezept die Lücke von Stufe 1 beim Multi-Dokumenten-Reasoning weitgehend, während die Code-Debug-Leistung erhalten bleibt.

English

As real-world applications increasingly require processing inputs of 100k+ tokens, the gap between context length and inference efficiency has become a critical bottleneck. Context compression offers a way to reduce prefill costs while preserving task accuracy. However, existing training-free attention-based methods leave substantial gaps in demanding long-context tasks such as code reasoning. We present LongAttnComp, a long-context adaptation of AttnComp that fine-tunes a lightweight cross-attention scoring layer and introduces tokenlevel chunking, a token-budget top-p algorithm, positional reordering, and a formatagnostic query parser. We further design a two-stage fine-tuning recipe for the compressor: Stage 1 builds a general retrieval foundation from NIAH-style data, and Stage 2 extends it with multi-hop and reasoning data for broader long-context task coverage. On InfiniteBench Code-Debug, LongAttnComp matches or exceeds full-context accuracy, substantially outperforms training-free baselines, and transfers across four target models from three families. On LongBench v2, the two-stage recipe largely closes the Stage 1 gap on multi-document reasoning while preserving Code-Debug performance.