Démystification du raisonnement à longue chaîne de pensée dans les LLM.

papers.abstract

Le dimensionnement du calcul d'inférence améliore le raisonnement dans les grands modèles de langage (LLM), avec de longues chaînes de pensées (CoTs) permettant des stratégies telles que le retour en arrière et la correction d'erreurs. L'apprentissage par renforcement (RL) est apparu comme une méthode cruciale pour développer ces capacités, cependant les conditions dans lesquelles de longues CoTs émergent restent floues, et l'entraînement RL nécessite des choix de conception soigneux. Dans cette étude, nous examinons systématiquement les mécanismes du raisonnement à longue CoT, identifiant les facteurs clés qui permettent aux modèles de générer de longues trajectoires de CoT. À travers des expériences approfondies de fine-tuning supervisé (SFT) et de RL, nous présentons quatre principales découvertes : (1) Bien que le SFT ne soit pas strictement nécessaire, il simplifie l'entraînement et améliore l'efficacité ; (2) Les capacités de raisonnement ont tendance à émerger avec une augmentation du calcul d'entraînement, mais leur développement n'est pas garanti, rendant la mise en forme de la récompense cruciale pour stabiliser la croissance de la longueur de CoT ; (3) Le dimensionnement des signaux de récompense vérifiables est essentiel pour le RL. Nous constatons que l'exploitation de solutions bruitées extraites du web avec des mécanismes de filtrage montre un fort potentiel, en particulier pour des tâches hors distribution telles que le raisonnement STEM ; et (4) Les capacités de base telles que la correction d'erreurs sont intrinsèquement présentes dans les modèles de base, mais inciter efficacement ces compétences pour des tâches complexes via le RL exige un calcul significatif, et mesurer leur émergence nécessite une approche nuancée. Ces informations fournissent des orientations pratiques pour optimiser les stratégies d'entraînement afin d'améliorer le raisonnement à longue CoT dans les LLM. Notre code est disponible sur : https://github.com/eddycmu/demystify-long-cot.

English

Scaling inference compute enhances reasoning in large language models (LLMs), with long chains-of-thought (CoTs) enabling strategies like backtracking and error correction. Reinforcement learning (RL) has emerged as a crucial method for developing these capabilities, yet the conditions under which long CoTs emerge remain unclear, and RL training requires careful design choices. In this study, we systematically investigate the mechanics of long CoT reasoning, identifying the key factors that enable models to generate long CoT trajectories. Through extensive supervised fine-tuning (SFT) and RL experiments, we present four main findings: (1) While SFT is not strictly necessary, it simplifies training and improves efficiency; (2) Reasoning capabilities tend to emerge with increased training compute, but their development is not guaranteed, making reward shaping crucial for stabilizing CoT length growth; (3) Scaling verifiable reward signals is critical for RL. We find that leveraging noisy, web-extracted solutions with filtering mechanisms shows strong potential, particularly for out-of-distribution (OOD) tasks such as STEM reasoning; and (4) Core abilities like error correction are inherently present in base models, but incentivizing these skills effectively for complex tasks via RL demands significant compute, and measuring their emergence requires a nuanced approach. These insights provide practical guidance for optimizing training strategies to enhance long CoT reasoning in LLMs. Our code is available at: https://github.com/eddycmu/demystify-long-cot.

Démystification du raisonnement à longue chaîne de pensée dans les LLM.

Demystifying Long Chain-of-Thought Reasoning in LLMs

papers.abstract

Support