Desmistificando o Raciocínio de Longa Cadeia de Pensamento em LLMs
Demystifying Long Chain-of-Thought Reasoning in LLMs
February 5, 2025
Autores: Edward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue
cs.AI
Resumo
O aumento do poder computacional na inferência melhora o raciocínio em modelos de linguagem grandes (LLMs), com longas cadeias de pensamento (CoTs) possibilitando estratégias como retrocesso e correção de erros. A aprendizagem por reforço (RL) tem se destacado como um método crucial para desenvolver essas capacidades, no entanto, as condições sob as quais longas CoTs surgem permanecem incertas, e o treinamento com RL requer escolhas de design cuidadosas. Neste estudo, investigamos sistematicamente a mecânica do raciocínio de longas CoTs, identificando os principais fatores que permitem aos modelos gerar trajetórias de CoT longas. Através de extensos experimentos de ajuste fino supervisionado (SFT) e RL, apresentamos quatro descobertas principais: (1) Embora o SFT não seja estritamente necessário, ele simplifica o treinamento e melhora a eficiência; (2) As capacidades de raciocínio tendem a surgir com o aumento do poder computacional de treinamento, mas seu desenvolvimento não é garantido, tornando o ajuste de recompensa crucial para estabilizar o crescimento do comprimento do CoT; (3) Escalar sinais de recompensa verificáveis é crítico para RL. Descobrimos que aproveitar soluções ruidosas extraídas da web com mecanismos de filtragem mostra um forte potencial, especialmente para tarefas fora da distribuição (OOD) como o raciocínio STEM; e (4) Habilidades centrais como correção de erros estão inerentemente presentes nos modelos base, mas incentivar efetivamente essas habilidades para tarefas complexas via RL exige um poder computacional significativo, e medir sua emergência requer uma abordagem sutil. Essas percepções fornecem orientações práticas para otimizar estratégias de treinamento para aprimorar o raciocínio de longas CoTs em LLMs. Nosso código está disponível em: https://github.com/eddycmu/demystify-long-cot.
English
Scaling inference compute enhances reasoning in large language models (LLMs),
with long chains-of-thought (CoTs) enabling strategies like backtracking and
error correction. Reinforcement learning (RL) has emerged as a crucial method
for developing these capabilities, yet the conditions under which long CoTs
emerge remain unclear, and RL training requires careful design choices. In this
study, we systematically investigate the mechanics of long CoT reasoning,
identifying the key factors that enable models to generate long CoT
trajectories. Through extensive supervised fine-tuning (SFT) and RL
experiments, we present four main findings: (1) While SFT is not strictly
necessary, it simplifies training and improves efficiency; (2) Reasoning
capabilities tend to emerge with increased training compute, but their
development is not guaranteed, making reward shaping crucial for stabilizing
CoT length growth; (3) Scaling verifiable reward signals is critical for RL. We
find that leveraging noisy, web-extracted solutions with filtering mechanisms
shows strong potential, particularly for out-of-distribution (OOD) tasks such
as STEM reasoning; and (4) Core abilities like error correction are inherently
present in base models, but incentivizing these skills effectively for complex
tasks via RL demands significant compute, and measuring their emergence
requires a nuanced approach. These insights provide practical guidance for
optimizing training strategies to enhance long CoT reasoning in LLMs. Our code
is available at: https://github.com/eddycmu/demystify-long-cot.Summary
AI-Generated Summary