Démystification du raisonnement à longue chaîne de pensée dans les LLM.
Demystifying Long Chain-of-Thought Reasoning in LLMs
February 5, 2025
Auteurs: Edward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue
cs.AI
Résumé
Le dimensionnement du calcul d'inférence améliore le raisonnement dans les grands modèles de langage (LLM), avec de longues chaînes de pensées (CoTs) permettant des stratégies telles que le retour en arrière et la correction d'erreurs. L'apprentissage par renforcement (RL) est apparu comme une méthode cruciale pour développer ces capacités, cependant les conditions dans lesquelles de longues CoTs émergent restent floues, et l'entraînement RL nécessite des choix de conception soigneux. Dans cette étude, nous examinons systématiquement les mécanismes du raisonnement à longue CoT, identifiant les facteurs clés qui permettent aux modèles de générer de longues trajectoires de CoT. À travers des expériences approfondies de fine-tuning supervisé (SFT) et de RL, nous présentons quatre principales découvertes : (1) Bien que le SFT ne soit pas strictement nécessaire, il simplifie l'entraînement et améliore l'efficacité ; (2) Les capacités de raisonnement ont tendance à émerger avec une augmentation du calcul d'entraînement, mais leur développement n'est pas garanti, rendant la mise en forme de la récompense cruciale pour stabiliser la croissance de la longueur de CoT ; (3) Le dimensionnement des signaux de récompense vérifiables est essentiel pour le RL. Nous constatons que l'exploitation de solutions bruitées extraites du web avec des mécanismes de filtrage montre un fort potentiel, en particulier pour des tâches hors distribution telles que le raisonnement STEM ; et (4) Les capacités de base telles que la correction d'erreurs sont intrinsèquement présentes dans les modèles de base, mais inciter efficacement ces compétences pour des tâches complexes via le RL exige un calcul significatif, et mesurer leur émergence nécessite une approche nuancée. Ces informations fournissent des orientations pratiques pour optimiser les stratégies d'entraînement afin d'améliorer le raisonnement à longue CoT dans les LLM. Notre code est disponible sur : https://github.com/eddycmu/demystify-long-cot.
English
Scaling inference compute enhances reasoning in large language models (LLMs),
with long chains-of-thought (CoTs) enabling strategies like backtracking and
error correction. Reinforcement learning (RL) has emerged as a crucial method
for developing these capabilities, yet the conditions under which long CoTs
emerge remain unclear, and RL training requires careful design choices. In this
study, we systematically investigate the mechanics of long CoT reasoning,
identifying the key factors that enable models to generate long CoT
trajectories. Through extensive supervised fine-tuning (SFT) and RL
experiments, we present four main findings: (1) While SFT is not strictly
necessary, it simplifies training and improves efficiency; (2) Reasoning
capabilities tend to emerge with increased training compute, but their
development is not guaranteed, making reward shaping crucial for stabilizing
CoT length growth; (3) Scaling verifiable reward signals is critical for RL. We
find that leveraging noisy, web-extracted solutions with filtering mechanisms
shows strong potential, particularly for out-of-distribution (OOD) tasks such
as STEM reasoning; and (4) Core abilities like error correction are inherently
present in base models, but incentivizing these skills effectively for complex
tasks via RL demands significant compute, and measuring their emergence
requires a nuanced approach. These insights provide practical guidance for
optimizing training strategies to enhance long CoT reasoning in LLMs. Our code
is available at: https://github.com/eddycmu/demystify-long-cot.Summary
AI-Generated Summary