FocuSFT: Bilevel-Optimierung für dilutionsbewusstes Langkontext-Feintuning

Zusammenfassung

Große Sprachmodelle können heute zunehmend lange Eingaben verarbeiten, doch ihre Fähigkeit, über lange Kontexte verteilte Informationen effektiv zu nutzen, bleibt begrenzt. Wir führen diese Lücke darauf zurück, wie das Aufmerksamkeitsbudget während des überwachten Feintunings (SFT) auf langen Sequenzen ausgegeben wird: Positionsbias und Aufmerksamkeitssenken führen dazu, dass das Modell den Großteil seiner Aufmerksamkeit positionell privilegierten Tokens statt semantisch relevantem Inhalt zuweist. Diese trainingszeitliche Aufmerksamkeitsverdünnung (das Aushungern von Inhaltstokens in der Aufmerksamkeitsverteilung) schwächt das Gradientensignal und schränkt die Fähigkeit des Modells ein, robuste Langkontextfähigkeiten zu erlernen. Wir stellen FocuSFT vor, ein Rahmenwerk zur bilevel Optimierung, das dieses Problem zur Trainingszeit adressiert. Eine innere Schleife passt leichte Fast-Weight-Parameter auf den Trainingskontext an, um einen parametrischen Speicher zu bilden, der die Aufmerksamkeit auf relevante Inhalte konzentriert, während die äußere Schleife ein SFT durchführt, das von dieser geschärften Repräsentation konditioniert wird. Beide Schleifen wenden bidirektionale Aufmerksamkeit über Kontexttokens an, während sie kausale Maskierung für Antworten beibehalten, wodurch die kausale Asymmetrie verringert wird, die Aufmerksamkeitssenken hervorbringt, und das innere und äußere Verhalten angeglichen wird. Auf BABILong verbessert FocuSFT die Genauigkeit um bis zu +14 Prozentpunkte über Kontextlängen von 4K–32K; auf RULER steigert es die CWE-Aggregation von 72,9 % auf 81,1 % bei 16K; und auf GPQA mit agentischem Werkzeuggebrauch erzielt es einen relativen Gewinn von 24 % bei pass@1. Aufmerksamkeitsanalysen zeigen, dass FocuSFT die Masse der Aufmerksamkeitssenken um den Faktor 529 reduziert und das Kontextengagement während des Trainings verdreifacht. Code: https://github.com/JarvisPei/FocuSFT

English

Large language models can now process increasingly long inputs, yet their ability to effectively use information spread across long contexts remains limited. We trace this gap to how attention budget is spent during supervised fine-tuning (SFT) on long sequences: positional biases and attention sinks cause the model to allocate most of its attention to positionally privileged tokens rather than semantically relevant content. This training-time attention dilution (the starvation of content tokens in the attention distribution) weakens the gradient signal, limiting the model's ability to learn robust long-context capabilities. We introduce FocuSFT, a bilevel optimization framework that addresses this problem at training time. An inner loop adapts lightweight fast-weight parameters on the training context to form a parametric memory that concentrates attention on relevant content, and the outer loop performs SFT conditioned on this sharpened representation. Both loops apply bidirectional attention over context tokens while preserving causal masking for responses, reducing the causal asymmetry that gives rise to attention sinks and aligning inner-outer behavior. On BABILong, FocuSFT improves accuracy by up to +14pp across 4K--32K context lengths; on RULER, it raises CWE aggregation from 72.9\% to 81.1\% at 16K; and on GPQA with agentic tool use, it yields a 24\% relative gain in pass@1. Attention analysis shows that FocuSFT reduces attention sink mass by 529times and triples context engagement during training. Code: https://github.com/JarvisPei/FocuSFT

FocuSFT: Bilevel-Optimierung für dilutionsbewusstes Langkontext-Feintuning

FocuSFT: Bilevel Optimization for Dilution-Aware Long-Context Fine-Tuning

Zusammenfassung

Support