Wie viel Backtracking ist ausreichend? Untersuchung des Zusammenspiels von SFT und RL bei der Verbesserung des logischen Denkens von LLMs
How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning
May 30, 2025
papers.authors: Hongyi James Cai, Junlin Wang, Xiaoyin Chen, Bhuwan Dhingra
cs.AI
papers.abstract
Jüngste Durchbrüche bei großen Sprachmodellen (LLMs) haben deren Fähigkeiten zur logischen Schlussfolgerung effektiv verbessert, insbesondere bei mathematischen und logischen Problemen mit überprüfbaren Antworten, durch Techniken wie überwachtes Feinabstimmen (SFT) und bestärkendes Lernen (RL). Frühere Forschungen zeigen, dass RL Suchstrategien effektiv verinnerlicht, was lange Ketten von Gedankengängen (CoT) ermöglicht, wobei das Rückverfolgen (Backtracking) natürlich als erlernte Fähigkeit auftritt. Die genauen Vorteile des Rückverfolgens, insbesondere wie signifikant es zur Verbesserung der Schlussfolgerungen beiträgt und das optimale Ausmaß seiner Nutzung, bleiben jedoch weitgehend unverstanden. In dieser Arbeit untersuchen wir systematisch die Dynamik zwischen SFT und RL bei acht Aufgaben zur logischen Schlussfolgerung: Countdown, Sudoku, Arc 1D, Geometrie, Farbwürfelrotation, Listenfunktionen, Zebrarätsel und Selbstreferenz. Unsere Ergebnisse zeigen, dass kurze CoT-Sequenzen, die in SFT als Aufwärmphase verwendet werden, einen moderaten Beitrag zum RL-Training leisten, verglichen mit einem Kaltstart-RL; dieser Beitrag nimmt jedoch ab, wenn die Aufgaben zunehmend schwieriger werden. Motiviert durch diese Beobachtung erstellen wir synthetische Datensätze, die systematisch in der Anzahl der Rückverfolgungsschritte variieren, und führen kontrollierte Experimente durch, um den Einfluss entweder der Korrektheit (Inhalt) oder der Struktur (d. h. Rückverfolgungshäufigkeit) zu isolieren. Wir finden heraus, dass (1) längere CoT mit Rückverfolgungen im Allgemeinen ein besseres und stabileres RL-Training induzieren, (2) anspruchsvollere Probleme mit größerem Suchraum tendenziell eine höhere Anzahl von Rückverfolgungen während der SFT-Phase benötigen. Zusätzlich zeigen wir durch Experimente mit destillierten Daten, dass das RL-Training weitgehend unbeeinflusst von der Korrektheit langer CoT-Sequenzen bleibt, was darauf hindeutet, dass RL strukturelle Muster über die inhaltliche Korrektheit priorisiert. Insgesamt bieten unsere Ergebnisse praktische Einblicke in die Gestaltung optimaler Trainingsstrategien, um die logische Schlussfolgerung in LLMs effektiv zu skalieren.
English
Recent breakthroughs in large language models (LLMs) have effectively
improved their reasoning abilities, particularly on mathematical and logical
problems that have verifiable answers, through techniques such as supervised
finetuning (SFT) and reinforcement learning (RL). Prior research indicates that
RL effectively internalizes search strategies, enabling long chain-of-thought
(CoT) reasoning, with backtracking emerging naturally as a learned capability.
However, the precise benefits of backtracking, specifically, how significantly
it contributes to reasoning improvements and the optimal extent of its use,
remain poorly understood. In this work, we systematically investigate the
dynamics between SFT and RL on eight reasoning tasks: Countdown, Sudoku, Arc
1D, Geometry, Color Cube Rotation, List Functions, Zebra Puzzles, and Self
Reference. Our findings highlight that short CoT sequences used in SFT as a
warm-up do have moderate contribution to RL training, compared with cold-start
RL; however such contribution diminishes when tasks become increasingly
difficult. Motivated by this observation, we construct synthetic datasets
varying systematically in the number of backtracking steps and conduct
controlled experiments to isolate the influence of either the correctness
(content) or the structure (i.e., backtrack frequency). We find that (1) longer
CoT with backtracks generally induce better and more stable RL training, (2)
more challenging problems with larger search space tend to need higher numbers
of backtracks during the SFT stage. Additionally, we demonstrate through
experiments on distilled data that RL training is largely unaffected by the
correctness of long CoT sequences, suggesting that RL prioritizes structural
patterns over content correctness. Collectively, our results offer practical
insights into designing optimal training strategies to effectively scale
reasoning in LLMs.