Um Bom SFT Otimiza para o SFT, Um SFT Melhor Prepara para o Aprendizado por Reforço

Resumo

O pós-treinamento de LLMs de raciocínio é um processo holístico que normalmente consiste numa fase offline de SFT (Supervised Fine-Tuning) seguida por uma fase online de aprendizagem por reforço (RL). No entanto, o SFT é frequentemente otimizado de forma isolada para maximizar apenas o desempenho no SFT. Demonstramos que, após um treino de RL idêntico, os modelos inicializados a partir de *checkpoints* de SFT mais fortes podem ter um desempenho significativamente inferior ao daqueles inicializados a partir de *checkpoints* mais fracos. Atribuímos isto a um desalinhamento típico nos atuais *pipelines* SFT-RL: a distribuição que gera os dados offline de SFT pode diferir substancialmente da política otimizada durante o RL online, que aprende a partir das suas próprias experiências (*rollouts*). Propomos o PEAR (*Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting*), um método para a fase de SFT que corrige este desalinhamento e prepara melhor o modelo para o RL. O PEAR usa amostragem por importância para reponderar a perda do SFT, com três variantes que operam aos níveis do *token*, do bloco e da sequência. Pode ser usado para aumentar os objetivos padrão do SFT e incorre em pouca sobrecarga adicional de treino após as probabilidades para os dados offline serem recolhidas. Realizámos experiências controladas em jogos de raciocínio verificáveis e tarefas de raciocínio matemático nos modelos Qwen 2.5 e 3 e nos modelos *distilled* do DeepSeek. O PEAR melhorou consistentemente o desempenho pós-RL em relação ao SFT canónico, com ganhos na métrica *pass@8* de até 14,6% no AIME2025. Os nossos resultados sugerem que o PEAR é um passo eficaz para um pós-treinamento de LLMs mais holístico, ao conceber e avaliar o SFT tendo em conta o RL subsequente, e não de forma isolada.

English

Post-training of reasoning LLMs is a holistic process that typically consists of an offline SFT stage followed by an online reinforcement learning (RL) stage. However, SFT is often optimized in isolation to maximize SFT performance alone. We show that, after identical RL training, models initialized from stronger SFT checkpoints can significantly underperform those initialized from weaker ones. We attribute this to a mismatch typical in current SFT-RL pipelines: the distribution that generates the offline SFT data can differ substantially from the policy optimized during online RL, which learns from its own rollouts. We propose PEAR (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting), an SFT-stage method that corrects this mismatch and better prepares the model for RL. PEAR uses importance sampling to reweight the SFT loss, with three variants operating at the token, block, and sequence levels. It can be used to augment standard SFT objectives and incurs little additional training overhead once probabilities for the offline data are collected. We conduct controlled experiments on verifiable reasoning games and mathematical reasoning tasks on Qwen 2.5 and 3 and DeepSeek-distilled models. PEAR consistently improves post-RL performance over canonical SFT, with pass at 8 gains up to a 14.6 percent on AIME2025. Our results suggest that PEAR is an effective step toward more holistic LLM post-training by designing and evaluating SFT with downstream RL in mind rather than in isolation.

Um Bom SFT Otimiza para o SFT, Um SFT Melhor Prepara para o Aprendizado por Reforço

Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

Resumo

Support