Hoeveel Backtracking is Voldoende? Onderzoek naar de Wisselwerking tussen SFT en RL bij het Verbeteren van LLM-redenering
How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning
May 30, 2025
Auteurs: Hongyi James Cai, Junlin Wang, Xiaoyin Chen, Bhuwan Dhingra
cs.AI
Samenvatting
Recente doorbraken in grote taalmodellen (LLMs) hebben hun redeneervermogen effectief verbeterd, met name op wiskundige en logische problemen die verifieerbare antwoorden hebben, door technieken zoals supervised finetuning (SFT) en reinforcement learning (RL). Eerder onderzoek geeft aan dat RL zoekstrategieën effectief internaliseert, waardoor lange ketens van redeneren (CoT) mogelijk worden, waarbij backtracking van nature ontstaat als een aangeleerd vermogen. De precieze voordelen van backtracking, met name hoe significant het bijdraagt aan verbeteringen in redeneren en de optimale mate van gebruik, blijven echter slecht begrepen. In dit werk onderzoeken we systematisch de dynamiek tussen SFT en RL op acht redeneertaken: Countdown, Sudoku, Arc 1D, Geometrie, Kleurenkubusrotatie, Lijstfuncties, Zebra-puzzels en Zelfreferentie. Onze bevindingen benadrukken dat korte CoT-sequenties die in SFT als opwarming worden gebruikt, een matige bijdrage leveren aan RL-training in vergelijking met RL zonder voorbereiding; deze bijdrage neemt echter af naarmate taken moeilijker worden. Gemotiveerd door deze observatie construeren we synthetische datasets die systematisch variëren in het aantal backtracking-stappen en voeren we gecontroleerde experimenten uit om de invloed van ofwel de correctheid (inhoud) of de structuur (d.w.z. backtrackfrequentie) te isoleren. We ontdekken dat (1) langere CoT met backtracks over het algemeen betere en stabielere RL-training induceren, (2) uitdagendere problemen met een grotere zoekruimte doorgaans een hoger aantal backtracks nodig hebben tijdens de SFT-fase. Daarnaast tonen we via experimenten op gedistilleerde data aan dat RL-training grotendeels onaangetast blijft door de correctheid van lange CoT-sequenties, wat suggereert dat RL structurele patronen boven inhoudelijke correctheid prioriteert. Collectief bieden onze resultaten praktische inzichten voor het ontwerpen van optimale trainingsstrategieën om redeneren in LLMs effectief op te schalen.
English
Recent breakthroughs in large language models (LLMs) have effectively
improved their reasoning abilities, particularly on mathematical and logical
problems that have verifiable answers, through techniques such as supervised
finetuning (SFT) and reinforcement learning (RL). Prior research indicates that
RL effectively internalizes search strategies, enabling long chain-of-thought
(CoT) reasoning, with backtracking emerging naturally as a learned capability.
However, the precise benefits of backtracking, specifically, how significantly
it contributes to reasoning improvements and the optimal extent of its use,
remain poorly understood. In this work, we systematically investigate the
dynamics between SFT and RL on eight reasoning tasks: Countdown, Sudoku, Arc
1D, Geometry, Color Cube Rotation, List Functions, Zebra Puzzles, and Self
Reference. Our findings highlight that short CoT sequences used in SFT as a
warm-up do have moderate contribution to RL training, compared with cold-start
RL; however such contribution diminishes when tasks become increasingly
difficult. Motivated by this observation, we construct synthetic datasets
varying systematically in the number of backtracking steps and conduct
controlled experiments to isolate the influence of either the correctness
(content) or the structure (i.e., backtrack frequency). We find that (1) longer
CoT with backtracks generally induce better and more stable RL training, (2)
more challenging problems with larger search space tend to need higher numbers
of backtracks during the SFT stage. Additionally, we demonstrate through
experiments on distilled data that RL training is largely unaffected by the
correctness of long CoT sequences, suggesting that RL prioritizes structural
patterns over content correctness. Collectively, our results offer practical
insights into designing optimal training strategies to effectively scale
reasoning in LLMs.