Gutes SFT optimiert für SFT, besseres SFT bereitet auf Reinforcement Learning vor.

papers.abstract

Das Nachtraining von Reasoning-LLMs ist ein ganzheitlicher Prozess, der typischerweise aus einer Offline-SFT-Phase gefolgt von einer Online-Reinforcement-Learning (RL)-Phase besteht. Allerdings wird SFT oft isoliert optimiert, um lediglich die SFT-Leistung zu maximieren. Wir zeigen, dass Modelle, die von stärkeren SFT-Checkpoints initialisiert werden, nach identischem RL-Training signifikant schlechter abschneiden können als solche, die von schwächeren Checkpoints initialisiert werden. Wir führen dies auf eine für aktuelle SFT-RL-Pipelines typische Diskrepanz zurück: Die Verteilung, die die Offline-SFT-Daten generiert, kann sich erheblich von der Policy unterscheiden, die während des Online-RL optimiert wird und aus ihren eigenen Rollouts lernt. Wir schlagen PEAR (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting) vor, eine SFT-Phasen-Methode, die diese Diskrepanz korrigiert und das Modell besser auf RL vorbereitet. PEAR verwendet Importance Sampling, um den SFT-Loss neu zu gewichten, mit drei Varianten, die auf Token-, Block- und Sequenzebene operieren. Es kann verwendet werden, um standardmäßige SFT-Ziele zu erweitern, und verursacht nur geringen zusätzlichen Trainingsaufwand, sobald die Wahrscheinlichkeiten für die Offline-Daten gesammelt sind. Wir führen kontrollierte Experimente mit überprüfbaren Reasoning-Spielen und mathematischen Reasoning-Aufgaben an Qwen 2.5- und 3- sowie DeepSeek-distilled-Modellen durch. PEAR verbessert konsistent die Leistung nach dem RL-Training im Vergleich zur kanonischen SFT, mit Pass@8-Steigerungen von bis zu 14,6 Prozent bei AIME2025. Unsere Ergebnisse deuten darauf hin, dass PEAR ein effektiver Schritt hin zu einem ganzheitlicheren Nachtraining von LLMs ist, indem SFT mit Blick auf das nachgelagerte RL entworfen und evaluiert wird, anstatt es isoliert zu betrachten.

English

Post-training of reasoning LLMs is a holistic process that typically consists of an offline SFT stage followed by an online reinforcement learning (RL) stage. However, SFT is often optimized in isolation to maximize SFT performance alone. We show that, after identical RL training, models initialized from stronger SFT checkpoints can significantly underperform those initialized from weaker ones. We attribute this to a mismatch typical in current SFT-RL pipelines: the distribution that generates the offline SFT data can differ substantially from the policy optimized during online RL, which learns from its own rollouts. We propose PEAR (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting), an SFT-stage method that corrects this mismatch and better prepares the model for RL. PEAR uses importance sampling to reweight the SFT loss, with three variants operating at the token, block, and sequence levels. It can be used to augment standard SFT objectives and incurs little additional training overhead once probabilities for the offline data are collected. We conduct controlled experiments on verifiable reasoning games and mathematical reasoning tasks on Qwen 2.5 and 3 and DeepSeek-distilled models. PEAR consistently improves post-RL performance over canonical SFT, with pass at 8 gains up to a 14.6 percent on AIME2025. Our results suggest that PEAR is an effective step toward more holistic LLM post-training by designing and evaluating SFT with downstream RL in mind rather than in isolation.

Gutes SFT optimiert für SFT, besseres SFT bereitet auf Reinforcement Learning vor.

Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

papers.abstract

Support