Desmitificando el Razonamiento de Largo Alcance en LLMs
Demystifying Long Chain-of-Thought Reasoning in LLMs
February 5, 2025
Autores: Edward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue
cs.AI
Resumen
La ampliación del cálculo de inferencia mejora el razonamiento en modelos de lenguaje grandes (LLMs), con largas cadenas de pensamiento (CoTs) que permiten estrategias como el retroceso y la corrección de errores. El aprendizaje por refuerzo (RL) ha surgido como un método crucial para desarrollar estas capacidades, sin embargo, las condiciones bajo las cuales surgen las largas CoTs siguen siendo poco claras, y el entrenamiento de RL requiere elecciones de diseño cuidadosas. En este estudio, investigamos sistemáticamente la mecánica del razonamiento de largas CoT, identificando los factores clave que permiten a los modelos generar trayectorias de largas CoT. A través de extensos experimentos de ajuste fino supervisado (SFT) y RL, presentamos cuatro hallazgos principales: (1) Si bien el SFT no es estrictamente necesario, simplifica el entrenamiento y mejora la eficiencia; (2) Las capacidades de razonamiento tienden a emerger con un aumento en el cálculo de entrenamiento, pero su desarrollo no está garantizado, por lo que dar forma a la recompensa es crucial para estabilizar el crecimiento de la longitud de CoT; (3) Escalar señales de recompensa verificables es fundamental para RL. Descubrimos que aprovechar soluciones ruidosas extraídas de la web con mecanismos de filtrado muestra un gran potencial, especialmente para tareas fuera de distribución (OOD) como el razonamiento STEM; y (4) Habilidades fundamentales como la corrección de errores están inherentemente presentes en los modelos base, pero incentivar eficazmente estas habilidades para tareas complejas a través de RL requiere un cálculo significativo, y medir su emergencia requiere un enfoque matizado. Estas ideas ofrecen orientación práctica para optimizar estrategias de entrenamiento y mejorar el razonamiento de largas CoT en LLMs. Nuestro código está disponible en: https://github.com/eddycmu/demystify-long-cot.
English
Scaling inference compute enhances reasoning in large language models (LLMs),
with long chains-of-thought (CoTs) enabling strategies like backtracking and
error correction. Reinforcement learning (RL) has emerged as a crucial method
for developing these capabilities, yet the conditions under which long CoTs
emerge remain unclear, and RL training requires careful design choices. In this
study, we systematically investigate the mechanics of long CoT reasoning,
identifying the key factors that enable models to generate long CoT
trajectories. Through extensive supervised fine-tuning (SFT) and RL
experiments, we present four main findings: (1) While SFT is not strictly
necessary, it simplifies training and improves efficiency; (2) Reasoning
capabilities tend to emerge with increased training compute, but their
development is not guaranteed, making reward shaping crucial for stabilizing
CoT length growth; (3) Scaling verifiable reward signals is critical for RL. We
find that leveraging noisy, web-extracted solutions with filtering mechanisms
shows strong potential, particularly for out-of-distribution (OOD) tasks such
as STEM reasoning; and (4) Core abilities like error correction are inherently
present in base models, but incentivizing these skills effectively for complex
tasks via RL demands significant compute, and measuring their emergence
requires a nuanced approach. These insights provide practical guidance for
optimizing training strategies to enhance long CoT reasoning in LLMs. Our code
is available at: https://github.com/eddycmu/demystify-long-cot.Summary
AI-Generated Summary