LongAttnComp: Межсемейственное сжатие контекста для рассуждений с длинным контекстом

Аннотация

По мере того как реальные приложения всё чаще требуют обработки входных данных длиной свыше 100 000 токенов, разрыв между длиной контекста и эффективностью вывода становится критическим узким местом. Сжатие контекста позволяет снизить затраты на предварительное заполнение (prefill), сохраняя точность решения задач. Однако существующие методы, основанные на механизме внимания и не требующие обучения, оставляют существенные пробелы в сложных задачах с длинным контекстом, таких как рассуждение о коде. Мы представляем LongAttnComp — адаптацию AttnComp для длинного контекста, которая дообучает лёгкий слой оценки кросс-внимания и вводит поблочную обработку на уровне токенов (token-level chunking), алгоритм top-p с бюджетом токенов, переупорядочивание позиций и синтаксический анализатор запросов, не зависящий от формата. Дополнительно мы разрабатываем двухэтапный рецепт дообучения компрессора: этап 1 формирует общую поисковую основу на данных в стиле NIAH, а этап 2 расширяет её многошаговыми и рассуждающими данными для более широкого охвата задач с длинным контекстом. На InfiniteBench Code-Debug LongAttnComp достигает или превосходит точность полного контекста, значительно опережает базовые методы без обучения и переносится на четыре целевые модели из трёх семейств. На LongBench v2 двухэтапный рецепт в значительной мере устраняет разрыв этапа 1 в многодокументном рассуждении, сохраняя при этом производительность на Code-Debug.

English

As real-world applications increasingly require processing inputs of 100k+ tokens, the gap between context length and inference efficiency has become a critical bottleneck. Context compression offers a way to reduce prefill costs while preserving task accuracy. However, existing training-free attention-based methods leave substantial gaps in demanding long-context tasks such as code reasoning. We present LongAttnComp, a long-context adaptation of AttnComp that fine-tunes a lightweight cross-attention scoring layer and introduces tokenlevel chunking, a token-budget top-p algorithm, positional reordering, and a formatagnostic query parser. We further design a two-stage fine-tuning recipe for the compressor: Stage 1 builds a general retrieval foundation from NIAH-style data, and Stage 2 extends it with multi-hop and reasoning data for broader long-context task coverage. On InfiniteBench Code-Debug, LongAttnComp matches or exceeds full-context accuracy, substantially outperforms training-free baselines, and transfers across four target models from three families. On LongBench v2, the two-stage recipe largely closes the Stage 1 gap on multi-document reasoning while preserving Code-Debug performance.