Desagregação de Habilidade Adaptativa para Libertar o Aprendizado por Reforço Eficaz em Modelos de Raciocínio de Grande Escala

Resumo

O aprendizado por reforço com recompensas verificáveis (RLVR) demonstrou grande potencial para aprimorar a capacidade de raciocínio de grandes modelos de linguagem (LLMs). No entanto, devido à quantidade limitada de informações fornecidas durante o processo de RLVR, o modelo só consegue realizar uma exploração majoritariamente cega, o que frequentemente resulta em falhas em problemas desafiadores. Para fornecer informações adicionais ao processo de RLVR sem depender de um modelo professor, propomos o A²D, um método de Decomposição Adaptativa de Habilidades para melhorar a eficácia do RLVR. Especificamente, primeiro treinamos um decompositor via RLVR sem destilação, permitindo que ele decomponha questões complexas em um conjunto de subquestões mais simples. Em seguida, usamos esse decompositor para anotar subquestões para cada questão no conjunto de dados de treinamento e, então, treinamos o raciocinador sob RLVR com orientação de subquestões. Para melhor compreender o A²D, primeiro comparamos seu desempenho com baselines competitivas, demonstrando sua eficácia. A seguir, observamos que nosso método funciona como um módulo plug-and-play que pode ser aplicado a diferentes algoritmos de RLVR. Adicionalmente, realizamos uma análise do decompositor, revelando como o processo de RLVR afeta seu desempenho e comportamento, e qual tipo de orientação é mais adequado para aprimorar as capacidades de exploração e explotação do raciocinador.

English

Reinforcement learning with verifiable rewards (RLVR) has shown great potential to enhance the reasoning ability of large language models (LLMs). However, due to the limited amount of information provided during the RLVR process, the model can only engage in largely blind exploration, which often results in failure on challenging problems. To provide additional information for the RLVR process without relying on a teacher model, we propose A^2D, an Adaptive Ability Decomposing method for enhancing the effectiveness of RLVR. Specifically, we first train a decomposer via RLVR without distillation, enabling it to decompose complex questions into a set of simpler sub-questions. Next, we use this decomposer to annotate sub-questions for each question in the training dataset, and then train the reasoner under RLVR with sub-question guidance. To better understand A^2D, we first compare its performance with competitive baselines, showing its effectiveness. Next, we observe that our method functions as a plug-and-play module that can be applied to different RLVR algorithms. Furthermore, we conduct an analysis of the decomposer, revealing how the RLVR process affects its performance and behavior, and which type of guidance is better suited for enhancing the reasoner's exploration and exploitation abilities.

Desagregação de Habilidade Adaptativa para Libertar o Aprendizado por Reforço Eficaz em Modelos de Raciocínio de Grande Escala

Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning

Resumo

Support