ChatPaper.aiChatPaper

Quanto de Retrocesso é Suficiente? Explorando a Interação entre SFT e RL na Melhoria do Raciocínio de LLMs

How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning

May 30, 2025
Autores: Hongyi James Cai, Junlin Wang, Xiaoyin Chen, Bhuwan Dhingra
cs.AI

Resumo

Descobertas recentes em modelos de linguagem de grande escala (LLMs) têm melhorado significativamente suas habilidades de raciocínio, especialmente em problemas matemáticos e lógicos que possuem respostas verificáveis, por meio de técnicas como ajuste fino supervisionado (SFT) e aprendizado por reforço (RL). Pesquisas anteriores indicam que o RL internaliza efetivamente estratégias de busca, permitindo raciocínios de cadeia de pensamento (CoT) longos, com o retrocesso surgindo naturalmente como uma capacidade aprendida. No entanto, os benefícios precisos do retrocesso, especificamente o quanto ele contribui para melhorias no raciocínio e a extensão ideal de seu uso, ainda são pouco compreendidos. Neste trabalho, investigamos sistematicamente a dinâmica entre SFT e RL em oito tarefas de raciocínio: Countdown, Sudoku, Arc 1D, Geometria, Rotação de Cubo de Cores, Funções de Lista, Quebra-Cabeças Zebra e Autorreferência. Nossos resultados destacam que sequências curtas de CoT usadas no SFT como preparação têm uma contribuição moderada para o treinamento de RL, em comparação com o RL iniciado do zero; no entanto, essa contribuição diminui à medida que as tarefas se tornam cada vez mais difíceis. Motivados por essa observação, construímos conjuntos de dados sintéticos que variam sistematicamente no número de etapas de retrocesso e realizamos experimentos controlados para isolar a influência da correção (conteúdo) ou da estrutura (ou seja, frequência de retrocesso). Descobrimos que (1) CoT mais longos com retrocessos geralmente induzem um treinamento de RL melhor e mais estável, (2) problemas mais desafiadores com espaços de busca maiores tendem a precisar de um número maior de retrocessos durante a fase de SFT. Além disso, demonstramos por meio de experimentos com dados destilados que o treinamento de RL é pouco afetado pela correção de sequências longas de CoT, sugerindo que o RL prioriza padrões estruturais em vez da correção do conteúdo. Coletivamente, nossos resultados oferecem insights práticos para projetar estratégias de treinamento ideais para escalar efetivamente o raciocínio em LLMs.
English
Recent breakthroughs in large language models (LLMs) have effectively improved their reasoning abilities, particularly on mathematical and logical problems that have verifiable answers, through techniques such as supervised finetuning (SFT) and reinforcement learning (RL). Prior research indicates that RL effectively internalizes search strategies, enabling long chain-of-thought (CoT) reasoning, with backtracking emerging naturally as a learned capability. However, the precise benefits of backtracking, specifically, how significantly it contributes to reasoning improvements and the optimal extent of its use, remain poorly understood. In this work, we systematically investigate the dynamics between SFT and RL on eight reasoning tasks: Countdown, Sudoku, Arc 1D, Geometry, Color Cube Rotation, List Functions, Zebra Puzzles, and Self Reference. Our findings highlight that short CoT sequences used in SFT as a warm-up do have moderate contribution to RL training, compared with cold-start RL; however such contribution diminishes when tasks become increasingly difficult. Motivated by this observation, we construct synthetic datasets varying systematically in the number of backtracking steps and conduct controlled experiments to isolate the influence of either the correctness (content) or the structure (i.e., backtrack frequency). We find that (1) longer CoT with backtracks generally induce better and more stable RL training, (2) more challenging problems with larger search space tend to need higher numbers of backtracks during the SFT stage. Additionally, we demonstrate through experiments on distilled data that RL training is largely unaffected by the correctness of long CoT sequences, suggesting that RL prioritizes structural patterns over content correctness. Collectively, our results offer practical insights into designing optimal training strategies to effectively scale reasoning in LLMs.
PDF43June 4, 2025