Demistificazione del Ragionamento a Lunga Catena di Pensiero nei LLMs
Demystifying Long Chain-of-Thought Reasoning in LLMs
February 5, 2025
Autori: Edward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue
cs.AI
Abstract
L'incremento del calcolo inferenziale migliora il ragionamento nei grandi modelli linguistici (LLM), con lunghe catene di pensiero (CoTs) che consentono strategie come il backtracking e la correzione degli errori. Il Reinforcement Learning (RL) è emerso come un metodo cruciale per sviluppare queste capacità, tuttavia le condizioni in cui emergono lunghe CoTs rimangono poco chiare e l'addestramento RL richiede scelte progettuali attente. In questo studio, investighiamo sistematicamente la meccanica del ragionamento a lungo CoT, identificando i fattori chiave che consentono ai modelli di generare lunghe traiettorie CoT. Attraverso ampi esperimenti di fine-tuning supervisionato (SFT) e RL, presentiamo quattro principali scoperte: (1) Sebbene il SFT non sia strettamente necessario, semplifica l'addestramento e ne migliora l'efficienza; (2) Le capacità di ragionamento tendono a emergere con un aumento del calcolo di addestramento, ma il loro sviluppo non è garantito, rendendo cruciale la modellazione del reward per stabilizzare la crescita della lunghezza di CoT; (3) L'incremento dei segnali di reward verificabili è fondamentale per il RL. Scopriamo che sfruttare soluzioni rumorose estratte da web con meccanismi di filtraggio mostra un forte potenziale, in particolare per compiti fuori distribuzione (OOD) come il ragionamento STEM; e (4) Abilità di base come la correzione degli errori sono presenti intrinsecamente nei modelli di base, ma incentivare efficacemente queste abilità per compiti complessi tramite RL richiede un calcolo significativo e misurarne l'emergenza richiede un approccio sfumato. Queste intuizioni forniscono indicazioni pratiche per ottimizzare le strategie di addestramento per migliorare il ragionamento a lungo CoT nei LLM. Il nostro codice è disponibile su: https://github.com/eddycmu/demystify-long-cot.
English
Scaling inference compute enhances reasoning in large language models (LLMs),
with long chains-of-thought (CoTs) enabling strategies like backtracking and
error correction. Reinforcement learning (RL) has emerged as a crucial method
for developing these capabilities, yet the conditions under which long CoTs
emerge remain unclear, and RL training requires careful design choices. In this
study, we systematically investigate the mechanics of long CoT reasoning,
identifying the key factors that enable models to generate long CoT
trajectories. Through extensive supervised fine-tuning (SFT) and RL
experiments, we present four main findings: (1) While SFT is not strictly
necessary, it simplifies training and improves efficiency; (2) Reasoning
capabilities tend to emerge with increased training compute, but their
development is not guaranteed, making reward shaping crucial for stabilizing
CoT length growth; (3) Scaling verifiable reward signals is critical for RL. We
find that leveraging noisy, web-extracted solutions with filtering mechanisms
shows strong potential, particularly for out-of-distribution (OOD) tasks such
as STEM reasoning; and (4) Core abilities like error correction are inherently
present in base models, but incentivizing these skills effectively for complex
tasks via RL demands significant compute, and measuring their emergence
requires a nuanced approach. These insights provide practical guidance for
optimizing training strategies to enhance long CoT reasoning in LLMs. Our code
is available at: https://github.com/eddycmu/demystify-long-cot.Summary
AI-Generated Summary