Quelle quantité de retour en arrière est suffisante ? Explorer l'interaction entre l'apprentissage supervisé fin (SFT) et l'apprentissage par renforcement (RL) dans l'amélioration du raisonnement des grands modèles de langage (LLM).

papers.abstract

Les récentes avancées dans les modèles de langage à grande échelle (LLMs) ont considérablement amélioré leurs capacités de raisonnement, en particulier sur des problèmes mathématiques et logiques ayant des réponses vérifiables, grâce à des techniques telles que le fine-tuning supervisé (SFT) et l'apprentissage par renforcement (RL). Des recherches antérieures indiquent que le RL internalise efficacement les stratégies de recherche, permettant un raisonnement en chaîne de pensée (CoT) étendue, avec le retour en arrière (backtracking) émergeant naturellement comme une capacité apprise. Cependant, les avantages précis du retour en arrière, notamment son impact significatif sur l'amélioration du raisonnement et l'étendue optimale de son utilisation, restent mal compris. Dans ce travail, nous étudions systématiquement les dynamiques entre le SFT et le RL sur huit tâches de raisonnement : Countdown, Sudoku, Arc 1D, Géométrie, Rotation de Cube Coloré, Fonctions de Liste, Énigmes Zebra et Auto-Référence. Nos résultats montrent que les courtes séquences CoT utilisées dans le SFT comme amorce contribuent modérément à l'entraînement RL, comparé à un démarrage à froid du RL ; cependant, cette contribution diminue lorsque les tâches deviennent de plus en plus difficiles. Motivés par cette observation, nous construisons des ensembles de données synthétiques variant systématiquement dans le nombre d'étapes de retour en arrière et menons des expériences contrôlées pour isoler l'influence soit de la justesse (contenu) soit de la structure (c'est-à-dire la fréquence de retour en arrière). Nous constatons que (1) des CoT plus longues avec des retours en arrière induisent généralement un meilleur et plus stable entraînement RL, (2) des problèmes plus complexes avec un espace de recherche plus large tendent à nécessiter un nombre plus élevé de retours en arrière lors de la phase SFT. De plus, nous démontrons à travers des expériences sur des données distillées que l'entraînement RL est largement insensible à la justesse des longues séquences CoT, suggérant que le RL privilégie les motifs structurels plutôt que la justesse du contenu. Collectivement, nos résultats offrent des perspectives pratiques pour concevoir des stratégies d'entraînement optimales afin de développer efficacement le raisonnement dans les LLMs.

English

Recent breakthroughs in large language models (LLMs) have effectively improved their reasoning abilities, particularly on mathematical and logical problems that have verifiable answers, through techniques such as supervised finetuning (SFT) and reinforcement learning (RL). Prior research indicates that RL effectively internalizes search strategies, enabling long chain-of-thought (CoT) reasoning, with backtracking emerging naturally as a learned capability. However, the precise benefits of backtracking, specifically, how significantly it contributes to reasoning improvements and the optimal extent of its use, remain poorly understood. In this work, we systematically investigate the dynamics between SFT and RL on eight reasoning tasks: Countdown, Sudoku, Arc 1D, Geometry, Color Cube Rotation, List Functions, Zebra Puzzles, and Self Reference. Our findings highlight that short CoT sequences used in SFT as a warm-up do have moderate contribution to RL training, compared with cold-start RL; however such contribution diminishes when tasks become increasingly difficult. Motivated by this observation, we construct synthetic datasets varying systematically in the number of backtracking steps and conduct controlled experiments to isolate the influence of either the correctness (content) or the structure (i.e., backtrack frequency). We find that (1) longer CoT with backtracks generally induce better and more stable RL training, (2) more challenging problems with larger search space tend to need higher numbers of backtracks during the SFT stage. Additionally, we demonstrate through experiments on distilled data that RL training is largely unaffected by the correctness of long CoT sequences, suggesting that RL prioritizes structural patterns over content correctness. Collectively, our results offer practical insights into designing optimal training strategies to effectively scale reasoning in LLMs.

Quelle quantité de retour en arrière est suffisante ? Explorer l'interaction entre l'apprentissage supervisé fin (SFT) et l'apprentissage par renforcement (RL) dans l'amélioration du raisonnement des grands modèles de langage (LLM).

How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning

papers.abstract

Support