Desmistificando o Raciocínio de Longa Cadeia de Pensamento em LLMs

Resumo

O aumento do poder computacional na inferência melhora o raciocínio em modelos de linguagem grandes (LLMs), com longas cadeias de pensamento (CoTs) possibilitando estratégias como retrocesso e correção de erros. A aprendizagem por reforço (RL) tem se destacado como um método crucial para desenvolver essas capacidades, no entanto, as condições sob as quais longas CoTs surgem permanecem incertas, e o treinamento com RL requer escolhas de design cuidadosas. Neste estudo, investigamos sistematicamente a mecânica do raciocínio de longas CoTs, identificando os principais fatores que permitem aos modelos gerar trajetórias de CoT longas. Através de extensos experimentos de ajuste fino supervisionado (SFT) e RL, apresentamos quatro descobertas principais: (1) Embora o SFT não seja estritamente necessário, ele simplifica o treinamento e melhora a eficiência; (2) As capacidades de raciocínio tendem a surgir com o aumento do poder computacional de treinamento, mas seu desenvolvimento não é garantido, tornando o ajuste de recompensa crucial para estabilizar o crescimento do comprimento do CoT; (3) Escalar sinais de recompensa verificáveis é crítico para RL. Descobrimos que aproveitar soluções ruidosas extraídas da web com mecanismos de filtragem mostra um forte potencial, especialmente para tarefas fora da distribuição (OOD) como o raciocínio STEM; e (4) Habilidades centrais como correção de erros estão inerentemente presentes nos modelos base, mas incentivar efetivamente essas habilidades para tarefas complexas via RL exige um poder computacional significativo, e medir sua emergência requer uma abordagem sutil. Essas percepções fornecem orientações práticas para otimizar estratégias de treinamento para aprimorar o raciocínio de longas CoTs em LLMs. Nosso código está disponível em: https://github.com/eddycmu/demystify-long-cot.

English

Scaling inference compute enhances reasoning in large language models (LLMs), with long chains-of-thought (CoTs) enabling strategies like backtracking and error correction. Reinforcement learning (RL) has emerged as a crucial method for developing these capabilities, yet the conditions under which long CoTs emerge remain unclear, and RL training requires careful design choices. In this study, we systematically investigate the mechanics of long CoT reasoning, identifying the key factors that enable models to generate long CoT trajectories. Through extensive supervised fine-tuning (SFT) and RL experiments, we present four main findings: (1) While SFT is not strictly necessary, it simplifies training and improves efficiency; (2) Reasoning capabilities tend to emerge with increased training compute, but their development is not guaranteed, making reward shaping crucial for stabilizing CoT length growth; (3) Scaling verifiable reward signals is critical for RL. We find that leveraging noisy, web-extracted solutions with filtering mechanisms shows strong potential, particularly for out-of-distribution (OOD) tasks such as STEM reasoning; and (4) Core abilities like error correction are inherently present in base models, but incentivizing these skills effectively for complex tasks via RL demands significant compute, and measuring their emergence requires a nuanced approach. These insights provide practical guidance for optimizing training strategies to enhance long CoT reasoning in LLMs. Our code is available at: https://github.com/eddycmu/demystify-long-cot.

Desmistificando o Raciocínio de Longa Cadeia de Pensamento em LLMs

Demystifying Long Chain-of-Thought Reasoning in LLMs

Resumo

Support