Demistificazione del Ragionamento a Lunga Catena di Pensiero nei LLMs

Abstract

L'incremento del calcolo inferenziale migliora il ragionamento nei grandi modelli linguistici (LLM), con lunghe catene di pensiero (CoTs) che consentono strategie come il backtracking e la correzione degli errori. Il Reinforcement Learning (RL) è emerso come un metodo cruciale per sviluppare queste capacità, tuttavia le condizioni in cui emergono lunghe CoTs rimangono poco chiare e l'addestramento RL richiede scelte progettuali attente. In questo studio, investighiamo sistematicamente la meccanica del ragionamento a lungo CoT, identificando i fattori chiave che consentono ai modelli di generare lunghe traiettorie CoT. Attraverso ampi esperimenti di fine-tuning supervisionato (SFT) e RL, presentiamo quattro principali scoperte: (1) Sebbene il SFT non sia strettamente necessario, semplifica l'addestramento e ne migliora l'efficienza; (2) Le capacità di ragionamento tendono a emergere con un aumento del calcolo di addestramento, ma il loro sviluppo non è garantito, rendendo cruciale la modellazione del reward per stabilizzare la crescita della lunghezza di CoT; (3) L'incremento dei segnali di reward verificabili è fondamentale per il RL. Scopriamo che sfruttare soluzioni rumorose estratte da web con meccanismi di filtraggio mostra un forte potenziale, in particolare per compiti fuori distribuzione (OOD) come il ragionamento STEM; e (4) Abilità di base come la correzione degli errori sono presenti intrinsecamente nei modelli di base, ma incentivare efficacemente queste abilità per compiti complessi tramite RL richiede un calcolo significativo e misurarne l'emergenza richiede un approccio sfumato. Queste intuizioni forniscono indicazioni pratiche per ottimizzare le strategie di addestramento per migliorare il ragionamento a lungo CoT nei LLM. Il nostro codice è disponibile su: https://github.com/eddycmu/demystify-long-cot.

English

Scaling inference compute enhances reasoning in large language models (LLMs), with long chains-of-thought (CoTs) enabling strategies like backtracking and error correction. Reinforcement learning (RL) has emerged as a crucial method for developing these capabilities, yet the conditions under which long CoTs emerge remain unclear, and RL training requires careful design choices. In this study, we systematically investigate the mechanics of long CoT reasoning, identifying the key factors that enable models to generate long CoT trajectories. Through extensive supervised fine-tuning (SFT) and RL experiments, we present four main findings: (1) While SFT is not strictly necessary, it simplifies training and improves efficiency; (2) Reasoning capabilities tend to emerge with increased training compute, but their development is not guaranteed, making reward shaping crucial for stabilizing CoT length growth; (3) Scaling verifiable reward signals is critical for RL. We find that leveraging noisy, web-extracted solutions with filtering mechanisms shows strong potential, particularly for out-of-distribution (OOD) tasks such as STEM reasoning; and (4) Core abilities like error correction are inherently present in base models, but incentivizing these skills effectively for complex tasks via RL demands significant compute, and measuring their emergence requires a nuanced approach. These insights provide practical guidance for optimizing training strategies to enhance long CoT reasoning in LLMs. Our code is available at: https://github.com/eddycmu/demystify-long-cot.

Demistificazione del Ragionamento a Lunga Catena di Pensiero nei LLMs

Demystifying Long Chain-of-Thought Reasoning in LLMs

Abstract

Support