Adaptive Fähigkeitszerlegung zur effektiven Verstärkung des Lernens großer Reasoning-Modelle
Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning
January 31, 2026
papers.authors: Zhipeng Chen, Xiaobo Qin, Wayne Xin Zhao, Youbin Wu, Ji-Rong Wen
cs.AI
papers.abstract
Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) hat großes Potenzial gezeigt, um die Fähigkeit großer Sprachmodelle (LLMs) zum logischen Schließen zu verbessern. Aufgrund der begrenzten Informationsmenge, die während des RLVR-Prozesses bereitgestellt wird, kann das Modell jedoch nur eine weitgehend blinde Exploration durchführen, was häufig zum Scheitern bei anspruchsvollen Problemen führt. Um den RLVR-Prozess ohne Rückgriff auf ein Lehrermodell mit zusätzlichen Informationen zu versorgen, schlagen wir A^2D vor, eine adaptive Fähigkeitszerlegungsmethode zur Steigerung der Wirksamkeit von RLVR. Konkret trainieren wir zunächst einen Zerleger mittels RLVR ohne Distillation, der in der Lage ist, komplexe Fragen in eine Reihe einfacherer Teilfragen zu zerlegen. Anschließend nutzen wir diesen Zerleger, um für jede Frage im Trainingsdatensatz Teilfragen zu annotieren, und trainieren dann den Schlussfolgerer unter RLVR mit Anleitung durch Teilfragen. Um A^2D besser zu verstehen, vergleichen wir zunächst seine Leistung mit wettbewerbsfähigen Baselines, um seine Wirksamkeit zu demonstrieren. Anschließend beobachten wir, dass unsere Methode als Plug-and-Play-Modul fungiert, das auf verschiedene RLVR-Algorithmen angewendet werden kann. Darüber hinaus führen wir eine Analyse des Zerlegers durch, die Aufschluss darüber gibt, wie der RLVR-Prozess seine Leistung und sein Verhalten beeinflusst, und welche Art von Anleitung besser geeignet ist, um die Explorations- und Exploitationsfähigkeiten des Schlussfolgerers zu verbessern.
English
Reinforcement learning with verifiable rewards (RLVR) has shown great potential to enhance the reasoning ability of large language models (LLMs). However, due to the limited amount of information provided during the RLVR process, the model can only engage in largely blind exploration, which often results in failure on challenging problems. To provide additional information for the RLVR process without relying on a teacher model, we propose A^2D, an Adaptive Ability Decomposing method for enhancing the effectiveness of RLVR. Specifically, we first train a decomposer via RLVR without distillation, enabling it to decompose complex questions into a set of simpler sub-questions. Next, we use this decomposer to annotate sub-questions for each question in the training dataset, and then train the reasoner under RLVR with sub-question guidance. To better understand A^2D, we first compare its performance with competitive baselines, showing its effectiveness. Next, we observe that our method functions as a plug-and-play module that can be applied to different RLVR algorithms. Furthermore, we conduct an analysis of the decomposer, revealing how the RLVR process affects its performance and behavior, and which type of guidance is better suited for enhancing the reasoner's exploration and exploitation abilities.