Хорошая SFT оптимизирует SFT, а лучшая SFT готовит к обучению с подкреплением.

Аннотация

Посттренировка рассуждающих больших языковых моделей (LLM) — это целостный процесс, который обычно состоит из офлайн-этапа SFT (тонкой настройки с учителем), за которым следует этап онлайн-обучения с подкреплением (RL). Однако SFT часто оптимизируют изолированно, стремясь максимизировать только её непосредственные показатели. Мы показываем, что после идентичной RL-тренировки модели, инициализированные из более сильных чекпоинтов SFT, могут значительно уступать по производительности моделям, инициализированным из более слабых. Мы объясняем это несоответствием, типичным для современных SFT-RL конвейеров: распределение, которое генерирует офлайн-данные для SFT, может существенно отличаться от политики, оптимизируемой в ходе онлайн-RL, которая учится на собственных прогонах (rollouts). Мы предлагаем PEAR (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting) — метод для этапа SFT, который исправляет это несоответствие и лучше подготавливает модель к RL. PEAR использует важное взвешивание (importance sampling) для перевзвешивания потерь SFT, предлагая три варианта, работающих на уровне токенов, блоков и последовательностей. Его можно использовать для дополнения стандартных целей SFT, и он требует небольших дополнительных вычислительных затрат после сбора вероятностей для офлайн-данных. Мы провели контролируемые эксперименты на верифицируемых играх на рассуждение и задачах математического мышления на моделях Qwen 2.5, Qwen 3 и DeepSeek-distilled. PEAR стабильно улучшает результаты после RL по сравнению с канонической SFT, демонстрируя прирост в метрике "pass@8" до 14.6% на AIME2025. Наши результаты свидетельствуют о том, что PEAR является эффективным шагом к более целостной посттренировке LLM, поскольку он предполагает проектирование и оценку SFT с учётом последующего этапа RL, а не изолированно.

English

Post-training of reasoning LLMs is a holistic process that typically consists of an offline SFT stage followed by an online reinforcement learning (RL) stage. However, SFT is often optimized in isolation to maximize SFT performance alone. We show that, after identical RL training, models initialized from stronger SFT checkpoints can significantly underperform those initialized from weaker ones. We attribute this to a mismatch typical in current SFT-RL pipelines: the distribution that generates the offline SFT data can differ substantially from the policy optimized during online RL, which learns from its own rollouts. We propose PEAR (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting), an SFT-stage method that corrects this mismatch and better prepares the model for RL. PEAR uses importance sampling to reweight the SFT loss, with three variants operating at the token, block, and sequence levels. It can be used to augment standard SFT objectives and incurs little additional training overhead once probabilities for the offline data are collected. We conduct controlled experiments on verifiable reasoning games and mathematical reasoning tasks on Qwen 2.5 and 3 and DeepSeek-distilled models. PEAR consistently improves post-RL performance over canonical SFT, with pass at 8 gains up to a 14.6 percent on AIME2025. Our results suggest that PEAR is an effective step toward more holistic LLM post-training by designing and evaluating SFT with downstream RL in mind rather than in isolation.

Хорошая SFT оптимизирует SFT, а лучшая SFT готовит к обучению с подкреплением.

Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

Аннотация

Support