Adaptief Vermogen Ontleden voor het Ontsluiten van Effectieve Versterkingsleren in Grote Redeneermodellen
Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning
January 31, 2026
Auteurs: Zhipeng Chen, Xiaobo Qin, Wayne Xin Zhao, Youbin Wu, Ji-Rong Wen
cs.AI
Samenvatting
Versterkend leren met verifieerbare beloningen (RLVR) heeft groot potentieel getoond om het redeneervermogen van grote taalmodellen (LLM's) te verbeteren. Vanwege de beperkte hoeveelheid informatie die tijdens het RLVR-proces wordt verstrekt, kan het model zich echter alleen bezighouden met grotendeels blinde exploratie, wat vaak resulteert in falen bij uitdagende problemen. Om aanvullende informatie te bieden voor het RLVR-proces zonder afhankelijk te zijn van een leraarmodel, stellen we A^2D voor, een Adaptieve Vermogensdecompositiemethode om de effectiviteit van RLVR te vergroten. Concreet trainen we eerst een decompositor via RLVR zonder distillatie, zodat deze complexe vragen kan opsplitsen in een reeks eenvoudigere subvragen. Vervolgens gebruiken we deze decompositor om subvragen te annoteren voor elke vraag in de trainingsdataset, en trainen we de redenaar onder RLVR met subvragen als leidraad. Om A^2D beter te begrijpen, vergelijken we eerst de prestaties met competitieve baseline-methoden, wat de effectiviteit aantoont. Vervolgens observeren we dat onze methode functioneert als een plug-and-play module die kan worden toegepast op verschillende RLVR-algoritmen. Verder voeren we een analyse uit van de decompositor, die onthult hoe het RLVR-proces de prestaties en het gedrag ervan beïnvloedt, en welk type leidraad beter geschikt is voor het verbeteren van de exploratie- en exploitatievermogens van de redenaar.
English
Reinforcement learning with verifiable rewards (RLVR) has shown great potential to enhance the reasoning ability of large language models (LLMs). However, due to the limited amount of information provided during the RLVR process, the model can only engage in largely blind exploration, which often results in failure on challenging problems. To provide additional information for the RLVR process without relying on a teacher model, we propose A^2D, an Adaptive Ability Decomposing method for enhancing the effectiveness of RLVR. Specifically, we first train a decomposer via RLVR without distillation, enabling it to decompose complex questions into a set of simpler sub-questions. Next, we use this decomposer to annotate sub-questions for each question in the training dataset, and then train the reasoner under RLVR with sub-question guidance. To better understand A^2D, we first compare its performance with competitive baselines, showing its effectiveness. Next, we observe that our method functions as a plug-and-play module that can be applied to different RLVR algorithms. Furthermore, we conduct an analysis of the decomposer, revealing how the RLVR process affects its performance and behavior, and which type of guidance is better suited for enhancing the reasoner's exploration and exploitation abilities.