FocuSFT: Optimización bi-nivel para el ajuste fino de contexto largo consciente de la dilución

Resumen

Los modelos de lenguaje de gran tamaño pueden procesar actualmente entradas cada vez más largas, pero su capacidad para utilizar eficazmente la información distribuida en contextos extensos sigue siendo limitada. Atribuimos esta brecha a cómo se gasta el presupuesto de atención durante el ajuste fino supervisado (SFT) en secuencias largas: los sesgos posicionales y los sumideros de atención hacen que el modelo asigne la mayor parte de su atención a tokens posicionalmente privilegiados en lugar de a contenido semánticamente relevante. Esta dilución de la atención en el momento del entrenamiento (la inanición de los tokens de contenido en la distribución de atención) debilita la señal de gradiente, limitando la capacidad del modelo para aprender capacidades robustas de contexto largo. Presentamos FocuSFT, un marco de optimización de dos niveles que aborda este problema en el momento del entrenamiento. Un bucle interno adapta parámetros ligeros y rápidos en el contexto de entrenamiento para formar una memoria paramétrica que concentra la atención en el contenido relevante, y el bucle externo realiza SFT condicionado a esta representación afinada. Ambos bucles aplican atención bidireccional sobre los tokens de contexto mientras preservan el enmascaramiento causal para las respuestas, reduciendo la asimetría causal que da lugar a los sumideros de atención y alineando el comportamiento interno-externo. En BABILong, FocuSFT mejora la precisión hasta +14 puntos porcentuales en longitudes de contexto de 4K a 32K; en RULER, eleva la agregación CWE del 72,9% al 81,1% en 16K; y en GPQA con uso de herramientas agénticas, produce una ganancia relativa del 24% en pass@1. El análisis de atención muestra que FocuSFT reduce la masa del sumidero de atención en 529 veces y triplica la participación en el contexto durante el entrenamiento. Código: https://github.com/JarvisPei/FocuSFT

English

Large language models can now process increasingly long inputs, yet their ability to effectively use information spread across long contexts remains limited. We trace this gap to how attention budget is spent during supervised fine-tuning (SFT) on long sequences: positional biases and attention sinks cause the model to allocate most of its attention to positionally privileged tokens rather than semantically relevant content. This training-time attention dilution (the starvation of content tokens in the attention distribution) weakens the gradient signal, limiting the model's ability to learn robust long-context capabilities. We introduce FocuSFT, a bilevel optimization framework that addresses this problem at training time. An inner loop adapts lightweight fast-weight parameters on the training context to form a parametric memory that concentrates attention on relevant content, and the outer loop performs SFT conditioned on this sharpened representation. Both loops apply bidirectional attention over context tokens while preserving causal masking for responses, reducing the causal asymmetry that gives rise to attention sinks and aligning inner-outer behavior. On BABILong, FocuSFT improves accuracy by up to +14pp across 4K--32K context lengths; on RULER, it raises CWE aggregation from 72.9\% to 81.1\% at 16K; and on GPQA with agentic tool use, it yields a 24\% relative gain in pass@1. Attention analysis shows that FocuSFT reduces attention sink mass by 529times and triples context engagement during training. Code: https://github.com/JarvisPei/FocuSFT

FocuSFT: Optimización bi-nivel para el ajuste fino de contexto largo consciente de la dilución

FocuSFT: Bilevel Optimization for Dilution-Aware Long-Context Fine-Tuning

Resumen

Support