L'entraînement de modèles de langage de grande taille pour un raisonnement par division du travail améliore l'évolutivité au moment des tests

Résumé

Les grands modèles de langage (LLM) ont démontré d'importantes capacités de raisonnement grâce à l'approche séquentielle de la chaîne de pensée (CoT). Néanmoins, aux limites de leurs capacités, la méthode CoT s'avère souvent insuffisante, et sa nature strictement séquentielle limite son extensibilité lors des tests. Une alternative potentielle est le raisonnement par division et conquête (DAC), qui décompose un problème complexe en sous-problèmes pour faciliter une exploration plus efficace de la solution. Bien que prometteuse, notre analyse révèle un décalage fondamental entre l'inférence post-entraînement généraliste et le style DAC, limitant la capacité du modèle à exploiter pleinement ce potentiel. Pour combler cet écart et libérer entièrement les capacités de raisonnement des LLM sur les tâches les plus difficiles, nous proposons un cadre d'apprentissage par renforcement (RL) de bout en bout pour améliorer leur capacité de raisonnement de type DAC. À chaque étape, la politique décompose un problème en un groupe de sous-problèmes, les résout séquentiellement, et traite le problème initial en fonction des solutions des sous-problèmes, l'intégration de la décomposition et de la solution étant incluse dans l'entraînement par RL. Avec un entraînement comparable, notre cadre de style DAC dote le modèle d'un plafond de performance plus élevé et d'une extensibilité accrue lors des tests, surpassant la méthode CoT de 8,6 % en Pass@1 et de 6,3 % en Pass@32 sur des benchmarks de niveau compétitif.

English

Large language models (LLMs) have demonstrated strong reasoning capabilities through step-by-step chain-of-thought (CoT) reasoning. Nevertheless, at the limits of model capability, CoT often proves insufficient, and its strictly sequential nature constrains test-time scalability. A potential alternative is divide-and-conquer (DAC) reasoning, which decomposes a complex problem into subproblems to facilitate more effective exploration of the solution. Although promising, our analysis reveals a fundamental misalignment between general-purpose post-training and DAC-style inference, which limits the model's capacity to fully leverage this potential. To bridge this gap and fully unlock LLMs' reasoning capabilities on the most challenging tasks, we propose an end-to-end reinforcement learning (RL) framework to enhance their DAC-style reasoning capacity. At each step, the policy decomposes a problem into a group of subproblems, solves them sequentially, and addresses the original one conditioned on the subproblem solutions, with both decomposition and solution integrated into RL training. Under comparable training, our DAC-style framework endows the model with a higher performance ceiling and stronger test-time scalability, surpassing CoT by 8.6% in Pass@1 and 6.3% in Pass@32 on competition-level benchmarks.

L'entraînement de modèles de langage de grande taille pour un raisonnement par division du travail améliore l'évolutivité au moment des tests

Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability

Résumé

Support