Descomposición de la Habilidad Adaptativa para Liberar el Aprendizaje por Refuerzo Efectivo en Modelos de Razonamiento a Gran Escala
Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning
January 31, 2026
Autores: Zhipeng Chen, Xiaobo Qin, Wayne Xin Zhao, Youbin Wu, Ji-Rong Wen
cs.AI
Resumen
El aprendizaje por refuerzo con recompensas verificables (RLVR) ha demostrado un gran potencial para mejorar la capacidad de razonamiento de los modelos de lenguaje grandes (LLM). Sin embargo, debido a la cantidad limitada de información proporcionada durante el proceso RLVR, el modelo solo puede realizar una exploración mayoritariamente ciega, lo que a menudo resulta en fallos ante problemas complejos. Para proporcionar información adicional al proceso RLVR sin depender de un modelo maestro, proponemos A^2D, un método de Descomposición Adaptativa de Habilidades para mejorar la eficacia del RLVR. Específicamente, primero entrenamos un descomponedor mediante RLVR sin destilación, permitiéndole descomponer preguntas complejas en un conjunto de sub-preguntas más simples. A continuación, utilizamos este descomponedor para anotar sub-preguntas para cada pregunta en el conjunto de datos de entrenamiento, y luego entrenamos el razonador bajo RLVR con la guía de las sub-preguntas. Para comprender mejor A^2D, primero comparamos su rendimiento con líneas base competitivas, demostrando su efectividad. Luego, observamos que nuestro método funciona como un módulo plug-and-play que puede aplicarse a diferentes algoritmos RLVR. Además, realizamos un análisis del descomponedor, revelando cómo el proceso RLVR afecta su rendimiento y comportamiento, y qué tipo de guía es más adecuada para mejorar las capacidades de exploración y explotación del razonador.
English
Reinforcement learning with verifiable rewards (RLVR) has shown great potential to enhance the reasoning ability of large language models (LLMs). However, due to the limited amount of information provided during the RLVR process, the model can only engage in largely blind exploration, which often results in failure on challenging problems. To provide additional information for the RLVR process without relying on a teacher model, we propose A^2D, an Adaptive Ability Decomposing method for enhancing the effectiveness of RLVR. Specifically, we first train a decomposer via RLVR without distillation, enabling it to decompose complex questions into a set of simpler sub-questions. Next, we use this decomposer to annotate sub-questions for each question in the training dataset, and then train the reasoner under RLVR with sub-question guidance. To better understand A^2D, we first compare its performance with competitive baselines, showing its effectiveness. Next, we observe that our method functions as a plug-and-play module that can be applied to different RLVR algorithms. Furthermore, we conduct an analysis of the decomposer, revealing how the RLVR process affects its performance and behavior, and which type of guidance is better suited for enhancing the reasoner's exploration and exploitation abilities.