ChatPaper.aiChatPaper

Адаптивное разложение способностей для эффективного обучения с подкреплением больших моделей рассуждений

Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning

January 31, 2026
Авторы: Zhipeng Chen, Xiaobo Qin, Wayne Xin Zhao, Youbin Wu, Ji-Rong Wen
cs.AI

Аннотация

Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) продемонстрировало значительный потенциал для улучшения способности крупных языковых моделей (LLM) к рассуждениям. Однако из-за ограниченного объема информации, предоставляемой в процессе RLVR, модель может осуществлять лишь в значительной степени слепой поиск, что часто приводит к неудаче при решении сложных задач. Чтобы предоставить дополнительную информацию для процесса RLVR без использования модели-учителя, мы предлагаем A²D — метод адаптивного декомпозирования способностей для повышения эффективности RLVR. А именно, мы сначала обучаем декомпозитор с помощью RLVR без дистилляции, что позволяет ему разбивать сложные вопросы на набор более простых подвопросов. Затем мы используем этот декомпозитор для аннотирования подвопросов к каждому вопросу в обучающем наборе данных и далее обучаем модуль рассуждений в рамках RLVR с руководством в виде подвопросов. Чтобы лучше понять A²D, мы сначала сравниваем его производительность с конкурентоспособными базовыми методами, демонстрируя его эффективность. Затем мы наблюдаем, что наш метод функционирует как модуль типа «подключи и работай», который может быть применен к различным алгоритмам RLVR. Кроме того, мы проводим анализ декомпозитора, выявляя, как процесс RLVR влияет на его производительность и поведение, а также какой тип руководства лучше подходит для улучшения способностей модуля рассуждений к исследованию и использованию.
English
Reinforcement learning with verifiable rewards (RLVR) has shown great potential to enhance the reasoning ability of large language models (LLMs). However, due to the limited amount of information provided during the RLVR process, the model can only engage in largely blind exploration, which often results in failure on challenging problems. To provide additional information for the RLVR process without relying on a teacher model, we propose A^2D, an Adaptive Ability Decomposing method for enhancing the effectiveness of RLVR. Specifically, we first train a decomposer via RLVR without distillation, enabling it to decompose complex questions into a set of simpler sub-questions. Next, we use this decomposer to annotate sub-questions for each question in the training dataset, and then train the reasoner under RLVR with sub-question guidance. To better understand A^2D, we first compare its performance with competitive baselines, showing its effectiveness. Next, we observe that our method functions as a plug-and-play module that can be applied to different RLVR algorithms. Furthermore, we conduct an analysis of the decomposer, revealing how the RLVR process affects its performance and behavior, and which type of guidance is better suited for enhancing the reasoner's exploration and exploitation abilities.
PDF52February 7, 2026