FocuSFT: Двухуровневая оптимизация для длинноконтекстной тонкой настройки с учётом разбавления

Аннотация

Крупные языковые модели теперь способны обрабатывать все более длинные входные последовательности, однако их способность эффективно использовать информацию, распределенную по протяженным контекстам, остается ограниченной. Мы связываем этот разрыв с тем, как распределяется бюджет внимания в процессе обучения с учителем (SFT) на длинных последовательностях: позиционные смещения и «стоки внимания» приводят к тому, что модель выделяет большую часть внимания позиционно привилегированным токенам, а не семантически релевантному содержанию. Такое размывание внимания во время обучения (голодание контентных токенов в распределении внимания) ослабляет градиентный сигнал, ограничивая способность модели к формированию надежных навыков работы с длинными контекстами. Мы представляем FocuSFT — фреймворк двухуровневой оптимизации, решающий эту проблему на этапе обучения. Внутренний цикл адаптирует легковесные параметры быстрого веса на обучающем контексте, формируя параметрическую память, концентрирующую внимание на релевантном содержании, а внешний цикл выполняет SFT с условием на это обостренное представление. Оба цикла применяют двунаправленное внимание к токенам контекста, сохраняя каузальную маскировку для ответов, что уменьшает каузальную асимметрию, порождающую стоки внимания, и согласует поведение внутреннего и внешнего циклов. На BABILong FocuSFT повышает точность до +14 процентных пунктов в диапазоне длин контекста 4K–32K; на RULER он увеличивает агрегацию CWE с 72,9% до 81,1% при 16K; а на GPQA с агентным использованием инструментов достигает относительного прироста в 24% по метрике pass@1. Анализ внимания показывает, что FocuSFT снижает массу стоков внимания в 529 раз и утраивает вовлеченность контекста во время обучения. Код: https://github.com/JarvisPei/FocuSFT

English

Large language models can now process increasingly long inputs, yet their ability to effectively use information spread across long contexts remains limited. We trace this gap to how attention budget is spent during supervised fine-tuning (SFT) on long sequences: positional biases and attention sinks cause the model to allocate most of its attention to positionally privileged tokens rather than semantically relevant content. This training-time attention dilution (the starvation of content tokens in the attention distribution) weakens the gradient signal, limiting the model's ability to learn robust long-context capabilities. We introduce FocuSFT, a bilevel optimization framework that addresses this problem at training time. An inner loop adapts lightweight fast-weight parameters on the training context to form a parametric memory that concentrates attention on relevant content, and the outer loop performs SFT conditioned on this sharpened representation. Both loops apply bidirectional attention over context tokens while preserving causal masking for responses, reducing the causal asymmetry that gives rise to attention sinks and aligning inner-outer behavior. On BABILong, FocuSFT improves accuracy by up to +14pp across 4K--32K context lengths; on RULER, it raises CWE aggregation from 72.9\% to 81.1\% at 16K; and on GPQA with agentic tool use, it yields a 24\% relative gain in pass@1. Attention analysis shows that FocuSFT reduces attention sink mass by 529times and triples context engagement during training. Code: https://github.com/JarvisPei/FocuSFT

FocuSFT: Двухуровневая оптимизация для длинноконтекстной тонкой настройки с учётом разбавления

FocuSFT: Bilevel Optimization for Dilution-Aware Long-Context Fine-Tuning

Аннотация

Support