Entmystifizierung des langen Ketten-Denkens in LLMs
Demystifying Long Chain-of-Thought Reasoning in LLMs
February 5, 2025
Autoren: Edward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue
cs.AI
Zusammenfassung
Die Skalierung der Inferenzberechnung verbessert das Schlussfolgern in großen Sprachmodellen (LLMs), wobei lange Gedankenketten (CoTs) Strategien wie Rückverfolgung und Fehlerkorrektur ermöglichen. Das Reinforcement-Learning (RL) hat sich als entscheidende Methode zur Entwicklung dieser Fähigkeiten herausgestellt, doch die Bedingungen, unter denen lange CoTs entstehen, bleiben unklar, und das RL-Training erfordert sorgfältige Designentscheidungen. In dieser Studie untersuchen wir systematisch die Mechanik des langen CoT-Schlussfolgerns und identifizieren die Schlüsselfaktoren, die es Modellen ermöglichen, lange CoT-Trajektorien zu generieren. Durch umfangreiche überwachte Feinabstimmung (SFT) und RL-Experimente präsentieren wir vier Hauptergebnisse: (1) Während SFT nicht zwingend erforderlich ist, vereinfacht es das Training und verbessert die Effizienz; (2) Das Schlussfolgern entwickelt sich tendenziell mit zunehmender Trainingsberechnung, aber ihre Entwicklung ist nicht garantiert, wodurch die Formung von Belohnungen entscheidend ist, um das Wachstum der CoT-Länge zu stabilisieren; (3) Die Skalierung überprüfbarer Belohnungssignale ist für RL entscheidend. Wir stellen fest, dass die Nutzung von rauschhaften, aus dem Web extrahierten Lösungen mit Filtermechanismen ein großes Potenzial zeigt, insbesondere für Out-of-Distribution (OOD)-Aufgaben wie STEM-Schlussfolgerungen; und (4) Kernfähigkeiten wie Fehlerkorrektur sind in Basismodellen inhärent vorhanden, aber die Anreizsetzung dieser Fähigkeiten für komplexe Aufgaben über RL erfordert erhebliche Berechnungen, und ihre Entwicklung zu messen erfordert einen differenzierten Ansatz. Diese Erkenntnisse bieten praktische Anleitungen zur Optimierung von Trainingsstrategien zur Verbesserung des langen CoT-Schlussfolgerns in LLMs. Unser Code ist verfügbar unter: https://github.com/eddycmu/demystify-long-cot.
English
Scaling inference compute enhances reasoning in large language models (LLMs),
with long chains-of-thought (CoTs) enabling strategies like backtracking and
error correction. Reinforcement learning (RL) has emerged as a crucial method
for developing these capabilities, yet the conditions under which long CoTs
emerge remain unclear, and RL training requires careful design choices. In this
study, we systematically investigate the mechanics of long CoT reasoning,
identifying the key factors that enable models to generate long CoT
trajectories. Through extensive supervised fine-tuning (SFT) and RL
experiments, we present four main findings: (1) While SFT is not strictly
necessary, it simplifies training and improves efficiency; (2) Reasoning
capabilities tend to emerge with increased training compute, but their
development is not guaranteed, making reward shaping crucial for stabilizing
CoT length growth; (3) Scaling verifiable reward signals is critical for RL. We
find that leveraging noisy, web-extracted solutions with filtering mechanisms
shows strong potential, particularly for out-of-distribution (OOD) tasks such
as STEM reasoning; and (4) Core abilities like error correction are inherently
present in base models, but incentivizing these skills effectively for complex
tasks via RL demands significant compute, and measuring their emergence
requires a nuanced approach. These insights provide practical guidance for
optimizing training strategies to enhance long CoT reasoning in LLMs. Our code
is available at: https://github.com/eddycmu/demystify-long-cot.Summary
AI-Generated Summary