ChatPaper.aiChatPaper

Hoeveel Backtracking is Voldoende? Onderzoek naar de Wisselwerking tussen SFT en RL bij het Verbeteren van LLM-redenering

How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning

May 30, 2025
Auteurs: Hongyi James Cai, Junlin Wang, Xiaoyin Chen, Bhuwan Dhingra
cs.AI

Samenvatting

Recente doorbraken in grote taalmodellen (LLMs) hebben hun redeneervermogen effectief verbeterd, met name op wiskundige en logische problemen die verifieerbare antwoorden hebben, door technieken zoals supervised finetuning (SFT) en reinforcement learning (RL). Eerder onderzoek geeft aan dat RL zoekstrategieën effectief internaliseert, waardoor lange ketens van redeneren (CoT) mogelijk worden, waarbij backtracking van nature ontstaat als een aangeleerd vermogen. De precieze voordelen van backtracking, met name hoe significant het bijdraagt aan verbeteringen in redeneren en de optimale mate van gebruik, blijven echter slecht begrepen. In dit werk onderzoeken we systematisch de dynamiek tussen SFT en RL op acht redeneertaken: Countdown, Sudoku, Arc 1D, Geometrie, Kleurenkubusrotatie, Lijstfuncties, Zebra-puzzels en Zelfreferentie. Onze bevindingen benadrukken dat korte CoT-sequenties die in SFT als opwarming worden gebruikt, een matige bijdrage leveren aan RL-training in vergelijking met RL zonder voorbereiding; deze bijdrage neemt echter af naarmate taken moeilijker worden. Gemotiveerd door deze observatie construeren we synthetische datasets die systematisch variëren in het aantal backtracking-stappen en voeren we gecontroleerde experimenten uit om de invloed van ofwel de correctheid (inhoud) of de structuur (d.w.z. backtrackfrequentie) te isoleren. We ontdekken dat (1) langere CoT met backtracks over het algemeen betere en stabielere RL-training induceren, (2) uitdagendere problemen met een grotere zoekruimte doorgaans een hoger aantal backtracks nodig hebben tijdens de SFT-fase. Daarnaast tonen we via experimenten op gedistilleerde data aan dat RL-training grotendeels onaangetast blijft door de correctheid van lange CoT-sequenties, wat suggereert dat RL structurele patronen boven inhoudelijke correctheid prioriteert. Collectief bieden onze resultaten praktische inzichten voor het ontwerpen van optimale trainingsstrategieën om redeneren in LLMs effectief op te schalen.
English
Recent breakthroughs in large language models (LLMs) have effectively improved their reasoning abilities, particularly on mathematical and logical problems that have verifiable answers, through techniques such as supervised finetuning (SFT) and reinforcement learning (RL). Prior research indicates that RL effectively internalizes search strategies, enabling long chain-of-thought (CoT) reasoning, with backtracking emerging naturally as a learned capability. However, the precise benefits of backtracking, specifically, how significantly it contributes to reasoning improvements and the optimal extent of its use, remain poorly understood. In this work, we systematically investigate the dynamics between SFT and RL on eight reasoning tasks: Countdown, Sudoku, Arc 1D, Geometry, Color Cube Rotation, List Functions, Zebra Puzzles, and Self Reference. Our findings highlight that short CoT sequences used in SFT as a warm-up do have moderate contribution to RL training, compared with cold-start RL; however such contribution diminishes when tasks become increasingly difficult. Motivated by this observation, we construct synthetic datasets varying systematically in the number of backtracking steps and conduct controlled experiments to isolate the influence of either the correctness (content) or the structure (i.e., backtrack frequency). We find that (1) longer CoT with backtracks generally induce better and more stable RL training, (2) more challenging problems with larger search space tend to need higher numbers of backtracks during the SFT stage. Additionally, we demonstrate through experiments on distilled data that RL training is largely unaffected by the correctness of long CoT sequences, suggesting that RL prioritizes structural patterns over content correctness. Collectively, our results offer practical insights into designing optimal training strategies to effectively scale reasoning in LLMs.
PDF44June 4, 2025