Décomposition des capacités adaptatives pour libérer l'apprentissage par renforcement efficace des grands modèles de raisonnement
Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning
January 31, 2026
papers.authors: Zhipeng Chen, Xiaobo Qin, Wayne Xin Zhao, Youbin Wu, Ji-Rong Wen
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a démontré un potentiel considérable pour améliorer la capacité de raisonnement des grands modèles de langage (LLM). Cependant, en raison de la quantité limitée d'informations fournies pendant le processus RLVR, le modèle ne peut procéder qu'à une exploration largement aveugle, ce qui entraîne souvent un échec sur des problèmes complexes. Pour fournir des informations supplémentaires au processus RLVR sans dépendre d'un modèle enseignant, nous proposons A²D, une méthode de Décomposition Adaptative des Abilités visant à améliorer l'efficacité du RLVR. Plus précisément, nous commençons par entraîner un décomposeur via du RLVR sans distillation, lui permettant de décomposer des questions complexes en un ensemble de sous-questions plus simples. Ensuite, nous utilisons ce décomposeur pour annoter les sous-questions de chaque question dans l'ensemble de données d'entraînement, puis nous entraînons le raisonneur sous RLVR avec le guidage des sous-questions. Pour mieux comprendre A²D, nous comparons d'abord ses performances avec des bases de référence compétitives, démontrant ainsi son efficacité. Ensuite, nous observons que notre méthode fonctionne comme un module prêt-à-l'emploi qui peut être appliqué à différents algorithmes RLVR. De plus, nous menons une analyse du décomposeur, révélant comment le processus RLVR affecte ses performances et son comportement, et quel type de guidage est mieux adapté pour améliorer les capacités d'exploration et d'exploitation du raisonneur.
English
Reinforcement learning with verifiable rewards (RLVR) has shown great potential to enhance the reasoning ability of large language models (LLMs). However, due to the limited amount of information provided during the RLVR process, the model can only engage in largely blind exploration, which often results in failure on challenging problems. To provide additional information for the RLVR process without relying on a teacher model, we propose A^2D, an Adaptive Ability Decomposing method for enhancing the effectiveness of RLVR. Specifically, we first train a decomposer via RLVR without distillation, enabling it to decompose complex questions into a set of simpler sub-questions. Next, we use this decomposer to annotate sub-questions for each question in the training dataset, and then train the reasoner under RLVR with sub-question guidance. To better understand A^2D, we first compare its performance with competitive baselines, showing its effectiveness. Next, we observe that our method functions as a plug-and-play module that can be applied to different RLVR algorithms. Furthermore, we conduct an analysis of the decomposer, revealing how the RLVR process affects its performance and behavior, and which type of guidance is better suited for enhancing the reasoner's exploration and exploitation abilities.