LongAttnComp: Compressão de Contexto Entre Famílias para Raciocínio em Contextos Longos

Resumo

À medida que aplicações do mundo real exigem cada vez mais o processamento de entradas com mais de 100 mil tokens, a lacuna entre o comprimento do contexto e a eficiência da inferência tornou-se um gargalo crítico. A compressão de contexto oferece uma maneira de reduzir os custos de prefill enquanto preserva a precisão da tarefa. No entanto, os métodos existentes baseados em atenção e sem treinamento deixam lacunas substanciais em tarefas exigentes de contexto longo, como raciocínio sobre código. Apresentamos o LongAttnComp, uma adaptação para contexto longo do AttnComp que ajusta finamente uma camada leve de pontuação de atenção cruzada e introduz chunking em nível de token, um algoritmo top-p com orçamento de tokens, reordenação posicional e um analisador de consultas agnóstico de formato. Projetamos ainda uma receita de ajuste fino em dois estágios para o compressor: o Estágio 1 constrói uma base geral de recuperação a partir de dados no estilo NIAH, e o Estágio 2 a expande com dados de múltiplos saltos (multi-hop) e raciocínio para uma cobertura mais ampla de tarefas de contexto longo. No InfiniteBench Code-Debug, o LongAttnComp iguala ou excede a precisão do contexto completo, supera substancialmente as linhas de base sem treinamento e transfere-se entre quatro modelos alvo de três famílias. No LongBench v2, a receita de dois estágios reduz amplamente a lacuna do Estágio 1 em raciocínio com múltiplos documentos, preservando o desempenho no Code-Debug.

English

As real-world applications increasingly require processing inputs of 100k+ tokens, the gap between context length and inference efficiency has become a critical bottleneck. Context compression offers a way to reduce prefill costs while preserving task accuracy. However, existing training-free attention-based methods leave substantial gaps in demanding long-context tasks such as code reasoning. We present LongAttnComp, a long-context adaptation of AttnComp that fine-tunes a lightweight cross-attention scoring layer and introduces tokenlevel chunking, a token-budget top-p algorithm, positional reordering, and a formatagnostic query parser. We further design a two-stage fine-tuning recipe for the compressor: Stage 1 builds a general retrieval foundation from NIAH-style data, and Stage 2 extends it with multi-hop and reasoning data for broader long-context task coverage. On InfiniteBench Code-Debug, LongAttnComp matches or exceeds full-context accuracy, substantially outperforms training-free baselines, and transfers across four target models from three families. On LongBench v2, the two-stage recipe largely closes the Stage 1 gap on multi-document reasoning while preserving Code-Debug performance.