Da Imitação à Discriminação: Rumo a um Mecanismo Generalizado de Vantagem Curricular para Aprimorar Tarefas de Raciocínio em Domínios Cruzados

Resumo

O aprendizado por reforço emergiu como um paradigma para o pós-treinamento de grandes modelos de linguagem, aumentando suas capacidades de raciocínio. Tais abordagens calculam um valor de vantagem para cada amostra, refletindo um desempenho melhor ou pior do que o esperado, fornecendo assim sinais positivos e negativos para o treinamento. No entanto, a mistura indiscriminada dos dois sinais nos métodos existentes, especialmente desde os estágios iniciais, pode levar a uma orientação ambígua e ganhos limitados. Para resolver esta questão, propomos o **CAPO** (**O**timização de **P**olítica por **V**antagem com **C**urrículo), um mecanismo de currículo adaptativo baseado em sinais de vantagem. O mecanismo proposto inicia o aprendizado por imitação com amostras de vantagem exclusivamente positivas para estabelecer bases robustas e, subsequentemente, introduz sinais negativos para cultivar capacidades discriminativas, melhorando assim a generalização em cenários complexos. Compatível com diversos métodos de otimização, incluindo GRPO, PPO, RLOO e Reinforce++, nosso método alcança consistentemente melhorias estáveis e significativas em tarefas de raciocínio matemático e ainda generaliza eficazmente para cenários de raciocínio multimodal em Interface Gráfica do Utilizador (GUI), estabelecendo-se como uma estrutura de otimização versátil e robusta.

English

Reinforcement learning has emerged as a paradigm for post-training large language models, boosting their reasoning capabilities. Such approaches compute an advantage value for each sample, reflecting better or worse performance than expected, thereby yielding both positive and negative signals for training. However, the indiscriminate mixing of the two signals in existing methods, especially from the early stages, may lead to ambiguous guidance and limited gains. To address this issue, we propose **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization), an adaptive curriculum mechanism based on advantage signals. The proposed mechanism bootstraps imitation learning with positive-only advantage samples to establish robust foundations, and subsequently introduces negative signals to cultivate discriminative capabilities, thereby improving generalization across complex scenarios. Compatible with diverse optimization methods including GRPO, PPO, RLOO, and Reinforce++, our method consistently achieves stable and significant improvements in mathematical reasoning tasks, and further generalizes effectively to multimodal Graphical User Interface (GUI) reasoning scenarios, establishing itself as a versatile and robust optimization framework.

Da Imitação à Discriminação: Rumo a um Mecanismo Generalizado de Vantagem Curricular para Aprimorar Tarefas de Raciocínio em Domínios Cruzados

From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

Resumo

Support