ChatPaper.aiChatPaper

Wie viel Backtracking ist ausreichend? Untersuchung des Zusammenspiels von SFT und RL bei der Verbesserung des logischen Denkens von LLMs

How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning

May 30, 2025
papers.authors: Hongyi James Cai, Junlin Wang, Xiaoyin Chen, Bhuwan Dhingra
cs.AI

papers.abstract

Jüngste Durchbrüche bei großen Sprachmodellen (LLMs) haben deren Fähigkeiten zur logischen Schlussfolgerung effektiv verbessert, insbesondere bei mathematischen und logischen Problemen mit überprüfbaren Antworten, durch Techniken wie überwachtes Feinabstimmen (SFT) und bestärkendes Lernen (RL). Frühere Forschungen zeigen, dass RL Suchstrategien effektiv verinnerlicht, was lange Ketten von Gedankengängen (CoT) ermöglicht, wobei das Rückverfolgen (Backtracking) natürlich als erlernte Fähigkeit auftritt. Die genauen Vorteile des Rückverfolgens, insbesondere wie signifikant es zur Verbesserung der Schlussfolgerungen beiträgt und das optimale Ausmaß seiner Nutzung, bleiben jedoch weitgehend unverstanden. In dieser Arbeit untersuchen wir systematisch die Dynamik zwischen SFT und RL bei acht Aufgaben zur logischen Schlussfolgerung: Countdown, Sudoku, Arc 1D, Geometrie, Farbwürfelrotation, Listenfunktionen, Zebrarätsel und Selbstreferenz. Unsere Ergebnisse zeigen, dass kurze CoT-Sequenzen, die in SFT als Aufwärmphase verwendet werden, einen moderaten Beitrag zum RL-Training leisten, verglichen mit einem Kaltstart-RL; dieser Beitrag nimmt jedoch ab, wenn die Aufgaben zunehmend schwieriger werden. Motiviert durch diese Beobachtung erstellen wir synthetische Datensätze, die systematisch in der Anzahl der Rückverfolgungsschritte variieren, und führen kontrollierte Experimente durch, um den Einfluss entweder der Korrektheit (Inhalt) oder der Struktur (d. h. Rückverfolgungshäufigkeit) zu isolieren. Wir finden heraus, dass (1) längere CoT mit Rückverfolgungen im Allgemeinen ein besseres und stabileres RL-Training induzieren, (2) anspruchsvollere Probleme mit größerem Suchraum tendenziell eine höhere Anzahl von Rückverfolgungen während der SFT-Phase benötigen. Zusätzlich zeigen wir durch Experimente mit destillierten Daten, dass das RL-Training weitgehend unbeeinflusst von der Korrektheit langer CoT-Sequenzen bleibt, was darauf hindeutet, dass RL strukturelle Muster über die inhaltliche Korrektheit priorisiert. Insgesamt bieten unsere Ergebnisse praktische Einblicke in die Gestaltung optimaler Trainingsstrategien, um die logische Schlussfolgerung in LLMs effektiv zu skalieren.
English
Recent breakthroughs in large language models (LLMs) have effectively improved their reasoning abilities, particularly on mathematical and logical problems that have verifiable answers, through techniques such as supervised finetuning (SFT) and reinforcement learning (RL). Prior research indicates that RL effectively internalizes search strategies, enabling long chain-of-thought (CoT) reasoning, with backtracking emerging naturally as a learned capability. However, the precise benefits of backtracking, specifically, how significantly it contributes to reasoning improvements and the optimal extent of its use, remain poorly understood. In this work, we systematically investigate the dynamics between SFT and RL on eight reasoning tasks: Countdown, Sudoku, Arc 1D, Geometry, Color Cube Rotation, List Functions, Zebra Puzzles, and Self Reference. Our findings highlight that short CoT sequences used in SFT as a warm-up do have moderate contribution to RL training, compared with cold-start RL; however such contribution diminishes when tasks become increasingly difficult. Motivated by this observation, we construct synthetic datasets varying systematically in the number of backtracking steps and conduct controlled experiments to isolate the influence of either the correctness (content) or the structure (i.e., backtrack frequency). We find that (1) longer CoT with backtracks generally induce better and more stable RL training, (2) more challenging problems with larger search space tend to need higher numbers of backtracks during the SFT stage. Additionally, we demonstrate through experiments on distilled data that RL training is largely unaffected by the correctness of long CoT sequences, suggesting that RL prioritizes structural patterns over content correctness. Collectively, our results offer practical insights into designing optimal training strategies to effectively scale reasoning in LLMs.
PDF44June 4, 2025