LongAttnComp: Compresión de Contexto entre Familias para Razonamiento en Contextos Largos

Resumen

A medida que las aplicaciones del mundo real exigen cada vez más procesar entradas de más de 100k tokens, la brecha entre la longitud del contexto y la eficiencia de inferencia se ha convertido en un cuello de botella crítico. La compresión de contexto ofrece una forma de reducir los costos de prellenado mientras se preserva la precisión de la tarea. Sin embargo, los métodos existentes basados en atención sin entrenamiento presentan brechas considerables en tareas exigentes de contexto largo, como el razonamiento de código. Presentamos LongAttnComp, una adaptación de AttnComp para contextos largos que ajusta una capa ligera de puntuación de atención cruzada e introduce fragmentación a nivel de tokens, un algoritmo top-p con presupuesto de tokens, reordenamiento posicional y un analizador de consultas independiente del formato. Además, diseñamos una receta de ajuste fino en dos etapas para el compresor: la Etapa 1 construye una base de recuperación general a partir de datos estilo NIAH, y la Etapa 2 la extiende con datos de múltiples saltos y razonamiento para una cobertura más amplia de tareas de contexto largo. En InfiniteBench Code-Debug, LongAttnComp iguala o supera la precisión de contexto completo, supera sustancialmente las líneas base sin entrenamiento y se transfiere a cuatro modelos objetivo de tres familias. En LongBench v2, la receta en dos etapas reduce en gran medida la brecha de la Etapa 1 en razonamiento multdocumento mientras preserva el rendimiento en Code-Debug.

English

As real-world applications increasingly require processing inputs of 100k+ tokens, the gap between context length and inference efficiency has become a critical bottleneck. Context compression offers a way to reduce prefill costs while preserving task accuracy. However, existing training-free attention-based methods leave substantial gaps in demanding long-context tasks such as code reasoning. We present LongAttnComp, a long-context adaptation of AttnComp that fine-tunes a lightweight cross-attention scoring layer and introduces tokenlevel chunking, a token-budget top-p algorithm, positional reordering, and a formatagnostic query parser. We further design a two-stage fine-tuning recipe for the compressor: Stage 1 builds a general retrieval foundation from NIAH-style data, and Stage 2 extends it with multi-hop and reasoning data for broader long-context task coverage. On InfiniteBench Code-Debug, LongAttnComp matches or exceeds full-context accuracy, substantially outperforms training-free baselines, and transfers across four target models from three families. On LongBench v2, the two-stage recipe largely closes the Stage 1 gap on multi-document reasoning while preserving Code-Debug performance.