ChatPaper.aiChatPaper

優れたSFTはSFTに最適化され、より優れたSFTは強化学習への準備を整える

Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

February 1, 2026
著者: Dylan Zhang, Yufeng Xu, Haojin Wang, Qingzhi Chen, Hao Peng
cs.AI

要旨

推論LLMの事後学習は、通常、オフラインのSFT段階とオンラインの強化学習段階から構成される包括的なプロセスである。しかし、SFTは単独でSFT性能を最大化するように最適化されることが多い。 我々は、同一のRL訓練後において、より強力なSFTチェックポイントから初期化されたモデルが、より弱いチェックポイントから初期化されたモデルよりも著しく低性能になる場合があることを示す。この原因は、現在のSFT-RLパイプラインに典型的なミスマッチにあると考える。すなわち、オフラインSFTデータを生成する分布と、自身のロールアウトから学習するオンラインRLで最適化される方策の分布が大きく異なることである。 我々は、このミスマッチを補正し、モデルをRLにより適した状態に準備するSFT段階の手法PEARを提案する。PEARは重要度サンプリングを用いてSFT損失を再重み付けし、トークン、ブロック、シーケンスの3つのレベルで動作する変種を有する。これは標準的なSFT目的関数を拡張する形で使用でき、オフラインデータの確率が収集されれば、追加の訓練オーバーヘッドはほとんど生じない。 Qwen 2.5/3およびDeepSeek-distilledモデルを用い、検証可能な推論ゲームと数学的推論タスクで制御実験を実施した。PEARは標準的なSFTと比較して、RL後の性能を一貫して向上させ、AIME2025では最大14.6%のpass@8ゲインを達成した。これらの結果は、PEARが下流のRLを意識してSFTを単独ではなく包括的に設計・評価することにより、より包括的なLLM事後学習に向けた効果的な一歩であることを示唆している。
English
Post-training of reasoning LLMs is a holistic process that typically consists of an offline SFT stage followed by an online reinforcement learning (RL) stage. However, SFT is often optimized in isolation to maximize SFT performance alone. We show that, after identical RL training, models initialized from stronger SFT checkpoints can significantly underperform those initialized from weaker ones. We attribute this to a mismatch typical in current SFT-RL pipelines: the distribution that generates the offline SFT data can differ substantially from the policy optimized during online RL, which learns from its own rollouts. We propose PEAR (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting), an SFT-stage method that corrects this mismatch and better prepares the model for RL. PEAR uses importance sampling to reweight the SFT loss, with three variants operating at the token, block, and sequence levels. It can be used to augment standard SFT objectives and incurs little additional training overhead once probabilities for the offline data are collected. We conduct controlled experiments on verifiable reasoning games and mathematical reasoning tasks on Qwen 2.5 and 3 and DeepSeek-distilled models. PEAR consistently improves post-RL performance over canonical SFT, with pass at 8 gains up to a 14.6 percent on AIME2025. Our results suggest that PEAR is an effective step toward more holistic LLM post-training by designing and evaluating SFT with downstream RL in mind rather than in isolation.
PDF393February 7, 2026