FocuSFT : Optimisation bi-niveau pour l'ajustement fin en contexte long tenant compte de la dilution

Résumé

Les grands modèles de langage peuvent désormais traiter des entrées de plus en plus longues, mais leur capacité à utiliser efficacement les informations réparties sur de longs contextes reste limitée. Nous attribuons cet écart à la manière dont le budget d'attention est dépensé lors du fine-tuning supervisé (SFT) sur de longues séquences : les biais positionnels et les puits d’attention amènent le modèle à allouer la majeure partie de son attention à des tokens positionnellement privilégiés plutôt qu’à du contenu sémantiquement pertinent. Cette dilution de l’attention en phase d’entraînement (la privation des tokens de contenu dans la distribution d’attention) affaiblit le signal de gradient, limitant la capacité du modèle à acquérir des capacités robustes pour les longs contextes. Nous présentons FocuSFT, un cadre d’optimisation à deux niveaux qui résout ce problème lors de l’entraînement. Une boucle interne adapte des paramètres légers et rapides sur le contexte d’entraînement pour former une mémoire paramétrique qui concentre l’attention sur le contenu pertinent, tandis que la boucle externe effectue un SFT conditionné par cette représentation affinée. Les deux boucles appliquent une attention bidirectionnelle sur les tokens du contexte tout en préservant un masquage causal pour les réponses, réduisant ainsi l’asymétrie causale à l’origine des puits d’attention et alignant le comportement interne-externe. Sur BABILong, FocuSFT améliore la précision jusqu’à +14 points de pourcentage pour des longueurs de contexte de 4 000 à 32 000 tokens ; sur RULER, il élève l’agrégation CWE de 72,9 % à 81,1 % à 16 000 tokens ; et sur GPQA avec utilisation d’outils agentiques, il obtient un gain relatif de 24 % en pass@1. L’analyse de l’attention montre que FocuSFT réduit la masse des puits d’attention d’un facteur 529 et triple l’engagement contextuel pendant l’entraînement. Code : https://github.com/JarvisPei/FocuSFT

English

Large language models can now process increasingly long inputs, yet their ability to effectively use information spread across long contexts remains limited. We trace this gap to how attention budget is spent during supervised fine-tuning (SFT) on long sequences: positional biases and attention sinks cause the model to allocate most of its attention to positionally privileged tokens rather than semantically relevant content. This training-time attention dilution (the starvation of content tokens in the attention distribution) weakens the gradient signal, limiting the model's ability to learn robust long-context capabilities. We introduce FocuSFT, a bilevel optimization framework that addresses this problem at training time. An inner loop adapts lightweight fast-weight parameters on the training context to form a parametric memory that concentrates attention on relevant content, and the outer loop performs SFT conditioned on this sharpened representation. Both loops apply bidirectional attention over context tokens while preserving causal masking for responses, reducing the causal asymmetry that gives rise to attention sinks and aligning inner-outer behavior. On BABILong, FocuSFT improves accuracy by up to +14pp across 4K--32K context lengths; on RULER, it raises CWE aggregation from 72.9\% to 81.1\% at 16K; and on GPQA with agentic tool use, it yields a 24\% relative gain in pass@1. Attention analysis shows that FocuSFT reduces attention sink mass by 529times and triples context engagement during training. Code: https://github.com/JarvisPei/FocuSFT

FocuSFT : Optimisation bi-niveau pour l'ajustement fin en contexte long tenant compte de la dilution

FocuSFT: Bilevel Optimization for Dilution-Aware Long-Context Fine-Tuning

Résumé

Support