LongAttnComp: Межсемейственное сжатие контекста для рассуждений с длинным контекстом
LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning
May 31, 2026
Авторы: Mengmeng Ji, Ravi Shanker Raju, Jonathan Lingjie Li, Chen Wu
cs.AI
Аннотация
По мере того как реальные приложения всё чаще требуют обработки входных данных длиной свыше 100 000 токенов, разрыв между длиной контекста и эффективностью вывода становится критическим узким местом. Сжатие контекста позволяет снизить затраты на предварительное заполнение (prefill), сохраняя точность решения задач. Однако существующие методы, основанные на механизме внимания и не требующие обучения, оставляют существенные пробелы в сложных задачах с длинным контекстом, таких как рассуждение о коде. Мы представляем LongAttnComp — адаптацию AttnComp для длинного контекста, которая дообучает лёгкий слой оценки кросс-внимания и вводит поблочную обработку на уровне токенов (token-level chunking), алгоритм top-p с бюджетом токенов, переупорядочивание позиций и синтаксический анализатор запросов, не зависящий от формата. Дополнительно мы разрабатываем двухэтапный рецепт дообучения компрессора: этап 1 формирует общую поисковую основу на данных в стиле NIAH, а этап 2 расширяет её многошаговыми и рассуждающими данными для более широкого охвата задач с длинным контекстом. На InfiniteBench Code-Debug LongAttnComp достигает или превосходит точность полного контекста, значительно опережает базовые методы без обучения и переносится на четыре целевые модели из трёх семейств. На LongBench v2 двухэтапный рецепт в значительной мере устраняет разрыв этапа 1 в многодокументном рассуждении, сохраняя при этом производительность на Code-Debug.
English
As real-world applications increasingly require processing inputs of 100k+ tokens, the gap between context length and inference efficiency has become a critical bottleneck. Context compression offers a way to reduce prefill costs while preserving task accuracy. However, existing training-free attention-based methods leave substantial gaps in demanding long-context tasks such as code reasoning. We present LongAttnComp, a long-context adaptation of AttnComp that fine-tunes a lightweight cross-attention scoring layer and introduces tokenlevel chunking, a token-budget top-p algorithm, positional reordering, and a formatagnostic query parser. We further design a two-stage fine-tuning recipe for the compressor: Stage 1 builds a general retrieval foundation from NIAH-style data, and Stage 2 extends it with multi-hop and reasoning data for broader long-context task coverage. On InfiniteBench Code-Debug, LongAttnComp matches or exceeds full-context accuracy, substantially outperforms training-free baselines, and transfers across four target models from three families. On LongBench v2, the two-stage recipe largely closes the Stage 1 gap on multi-document reasoning while preserving Code-Debug performance.