Quelle quantité de retour en arrière est suffisante ? Explorer l'interaction entre l'apprentissage supervisé fin (SFT) et l'apprentissage par renforcement (RL) dans l'amélioration du raisonnement des grands modèles de langage (LLM).
How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning
May 30, 2025
Auteurs: Hongyi James Cai, Junlin Wang, Xiaoyin Chen, Bhuwan Dhingra
cs.AI
Résumé
Les récentes avancées dans les modèles de langage à grande échelle (LLMs) ont considérablement amélioré leurs capacités de raisonnement, en particulier sur des problèmes mathématiques et logiques ayant des réponses vérifiables, grâce à des techniques telles que le fine-tuning supervisé (SFT) et l'apprentissage par renforcement (RL). Des recherches antérieures indiquent que le RL internalise efficacement les stratégies de recherche, permettant un raisonnement en chaîne de pensée (CoT) étendue, avec le retour en arrière (backtracking) émergeant naturellement comme une capacité apprise. Cependant, les avantages précis du retour en arrière, notamment son impact significatif sur l'amélioration du raisonnement et l'étendue optimale de son utilisation, restent mal compris. Dans ce travail, nous étudions systématiquement les dynamiques entre le SFT et le RL sur huit tâches de raisonnement : Countdown, Sudoku, Arc 1D, Géométrie, Rotation de Cube Coloré, Fonctions de Liste, Énigmes Zebra et Auto-Référence. Nos résultats montrent que les courtes séquences CoT utilisées dans le SFT comme amorce contribuent modérément à l'entraînement RL, comparé à un démarrage à froid du RL ; cependant, cette contribution diminue lorsque les tâches deviennent de plus en plus difficiles. Motivés par cette observation, nous construisons des ensembles de données synthétiques variant systématiquement dans le nombre d'étapes de retour en arrière et menons des expériences contrôlées pour isoler l'influence soit de la justesse (contenu) soit de la structure (c'est-à-dire la fréquence de retour en arrière). Nous constatons que (1) des CoT plus longues avec des retours en arrière induisent généralement un meilleur et plus stable entraînement RL, (2) des problèmes plus complexes avec un espace de recherche plus large tendent à nécessiter un nombre plus élevé de retours en arrière lors de la phase SFT. De plus, nous démontrons à travers des expériences sur des données distillées que l'entraînement RL est largement insensible à la justesse des longues séquences CoT, suggérant que le RL privilégie les motifs structurels plutôt que la justesse du contenu. Collectivement, nos résultats offrent des perspectives pratiques pour concevoir des stratégies d'entraînement optimales afin de développer efficacement le raisonnement dans les LLMs.
English
Recent breakthroughs in large language models (LLMs) have effectively
improved their reasoning abilities, particularly on mathematical and logical
problems that have verifiable answers, through techniques such as supervised
finetuning (SFT) and reinforcement learning (RL). Prior research indicates that
RL effectively internalizes search strategies, enabling long chain-of-thought
(CoT) reasoning, with backtracking emerging naturally as a learned capability.
However, the precise benefits of backtracking, specifically, how significantly
it contributes to reasoning improvements and the optimal extent of its use,
remain poorly understood. In this work, we systematically investigate the
dynamics between SFT and RL on eight reasoning tasks: Countdown, Sudoku, Arc
1D, Geometry, Color Cube Rotation, List Functions, Zebra Puzzles, and Self
Reference. Our findings highlight that short CoT sequences used in SFT as a
warm-up do have moderate contribution to RL training, compared with cold-start
RL; however such contribution diminishes when tasks become increasingly
difficult. Motivated by this observation, we construct synthetic datasets
varying systematically in the number of backtracking steps and conduct
controlled experiments to isolate the influence of either the correctness
(content) or the structure (i.e., backtrack frequency). We find that (1) longer
CoT with backtracks generally induce better and more stable RL training, (2)
more challenging problems with larger search space tend to need higher numbers
of backtracks during the SFT stage. Additionally, we demonstrate through
experiments on distilled data that RL training is largely unaffected by the
correctness of long CoT sequences, suggesting that RL prioritizes structural
patterns over content correctness. Collectively, our results offer practical
insights into designing optimal training strategies to effectively scale
reasoning in LLMs.