ChatPaper.aiChatPaper

Desmitificando el Razonamiento de Largo Alcance en LLMs

Demystifying Long Chain-of-Thought Reasoning in LLMs

February 5, 2025
Autores: Edward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue
cs.AI

Resumen

La ampliación del cálculo de inferencia mejora el razonamiento en modelos de lenguaje grandes (LLMs), con largas cadenas de pensamiento (CoTs) que permiten estrategias como el retroceso y la corrección de errores. El aprendizaje por refuerzo (RL) ha surgido como un método crucial para desarrollar estas capacidades, sin embargo, las condiciones bajo las cuales surgen las largas CoTs siguen siendo poco claras, y el entrenamiento de RL requiere elecciones de diseño cuidadosas. En este estudio, investigamos sistemáticamente la mecánica del razonamiento de largas CoT, identificando los factores clave que permiten a los modelos generar trayectorias de largas CoT. A través de extensos experimentos de ajuste fino supervisado (SFT) y RL, presentamos cuatro hallazgos principales: (1) Si bien el SFT no es estrictamente necesario, simplifica el entrenamiento y mejora la eficiencia; (2) Las capacidades de razonamiento tienden a emerger con un aumento en el cálculo de entrenamiento, pero su desarrollo no está garantizado, por lo que dar forma a la recompensa es crucial para estabilizar el crecimiento de la longitud de CoT; (3) Escalar señales de recompensa verificables es fundamental para RL. Descubrimos que aprovechar soluciones ruidosas extraídas de la web con mecanismos de filtrado muestra un gran potencial, especialmente para tareas fuera de distribución (OOD) como el razonamiento STEM; y (4) Habilidades fundamentales como la corrección de errores están inherentemente presentes en los modelos base, pero incentivar eficazmente estas habilidades para tareas complejas a través de RL requiere un cálculo significativo, y medir su emergencia requiere un enfoque matizado. Estas ideas ofrecen orientación práctica para optimizar estrategias de entrenamiento y mejorar el razonamiento de largas CoT en LLMs. Nuestro código está disponible en: https://github.com/eddycmu/demystify-long-cot.
English
Scaling inference compute enhances reasoning in large language models (LLMs), with long chains-of-thought (CoTs) enabling strategies like backtracking and error correction. Reinforcement learning (RL) has emerged as a crucial method for developing these capabilities, yet the conditions under which long CoTs emerge remain unclear, and RL training requires careful design choices. In this study, we systematically investigate the mechanics of long CoT reasoning, identifying the key factors that enable models to generate long CoT trajectories. Through extensive supervised fine-tuning (SFT) and RL experiments, we present four main findings: (1) While SFT is not strictly necessary, it simplifies training and improves efficiency; (2) Reasoning capabilities tend to emerge with increased training compute, but their development is not guaranteed, making reward shaping crucial for stabilizing CoT length growth; (3) Scaling verifiable reward signals is critical for RL. We find that leveraging noisy, web-extracted solutions with filtering mechanisms shows strong potential, particularly for out-of-distribution (OOD) tasks such as STEM reasoning; and (4) Core abilities like error correction are inherently present in base models, but incentivizing these skills effectively for complex tasks via RL demands significant compute, and measuring their emergence requires a nuanced approach. These insights provide practical guidance for optimizing training strategies to enhance long CoT reasoning in LLMs. Our code is available at: https://github.com/eddycmu/demystify-long-cot.

Summary

AI-Generated Summary

PDF593February 6, 2025