Goede SFT optimaliseert voor SFT, betere SFT bereidt voor op reinforcement learning.

Samenvatting

Het natreinen van redeneer-LLM's is een holistisch proces dat doorgaans bestaat uit een offline SFT-fase (Supervised Fine-Tuning) gevolgd door een online reinforcement learning (RL)-fase. SFT wordt echter vaak geïsoleerd geoptimaliseerd om alleen de SFT-prestaties te maximaliseren. Wij tonen aan dat, na identieke RL-training, modellen geïnitialiseerd vanuit sterkere SFT-checkpoints aanzienlijk slechter kunnen presteren dan modellen geïnitialiseerd vanuit zwakkere checkpoints. Wij schrijven dit toe aan een mismatch die typisch is in huidige SFT-RL-pipelines: de verdeling die de offline SFT-gegevens genereert, kan aanzienlijk verschillen van het beleid dat wordt geoptimaliseerd tijdens online RL, dat leert van zijn eigen rollouts. Wij stellen PEAR voor (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting), een SFT-fase methode die deze mismatch corrigeert en het model beter voorbereidt op RL. PEAR gebruikt importance sampling om het SFT-verlies te herwegen, met drie varianten die opereren op token-, blok- en sequentieniveau. Het kan worden gebruikt om standaard SFT-doelstellingen aan te vullen en veroorzaakt weinig extra trainingsoverhead zodra de kansen voor de offline gegevens zijn verzameld. Wij voeren gecontroleerde experimenten uit op verifieerbare redeneerspellen en wiskundige redeneertaken op Qwen 2.5- en 3- en DeepSeek-gedistilleerde modellen. PEAR verbetert consequent de post-RL-prestaties ten opzichte van canonieke SFT, met pass@8-winst tot 14,6 procent op AIME2025. Onze resultaten suggereren dat PEAR een effectieve stap is naar meer holistisch natreinen van LLM's door SFT te ontwerpen en evalueren met het oog op downstream RL in plaats van geïsoleerd.

English

Post-training of reasoning LLMs is a holistic process that typically consists of an offline SFT stage followed by an online reinforcement learning (RL) stage. However, SFT is often optimized in isolation to maximize SFT performance alone. We show that, after identical RL training, models initialized from stronger SFT checkpoints can significantly underperform those initialized from weaker ones. We attribute this to a mismatch typical in current SFT-RL pipelines: the distribution that generates the offline SFT data can differ substantially from the policy optimized during online RL, which learns from its own rollouts. We propose PEAR (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting), an SFT-stage method that corrects this mismatch and better prepares the model for RL. PEAR uses importance sampling to reweight the SFT loss, with three variants operating at the token, block, and sequence levels. It can be used to augment standard SFT objectives and incurs little additional training overhead once probabilities for the offline data are collected. We conduct controlled experiments on verifiable reasoning games and mathematical reasoning tasks on Qwen 2.5 and 3 and DeepSeek-distilled models. PEAR consistently improves post-RL performance over canonical SFT, with pass at 8 gains up to a 14.6 percent on AIME2025. Our results suggest that PEAR is an effective step toward more holistic LLM post-training by designing and evaluating SFT with downstream RL in mind rather than in isolation.

Goede SFT optimaliseert voor SFT, betere SFT bereidt voor op reinforcement learning.

Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

Samenvatting

Support