MAPO: Otimização de Política com Vantagem Mista
MAPO: Mixed Advantage Policy Optimization
September 23, 2025
Autores: Wenke Huang, Quan Zhang, Yiyang Fang, Jian Liang, Xuankun Rong, Huanjin Yao, Guancheng Wan, Ke Liang, Wenwen He, Mingjun Li, Leszek Rutkowski, Mang Ye, Bo Du, Dacheng Tao
cs.AI
Resumo
Os recentes avanços no aprendizado por reforço para modelos de base, como a Otimização de Política Relativa de Grupo (Group Relative Policy Optimization - GRPO), melhoraram significativamente o desempenho de modelos de base em tarefas de raciocínio. Notavelmente, a função de vantagem serve como um mecanismo central na GRPO para classificar a importância da trajetória. No entanto, as explorações existentes enfrentam tanto o problema de reversão de vantagem quanto o problema de espelhamento de vantagem, que dificultam a alocação razoável de vantagem entre diferentes amostras de consulta. Neste trabalho, propomos uma estratégia GRPO simples, mas eficaz, chamada Otimização de Política de Vantagem Mista (Mixed Advantage Policy Optimization - MAPO). Revelamos que a trajetória aparece com diferentes níveis de certeza e propomos o desvio percentual de vantagem para amostras com trajetórias de alta certeza. Além disso, reajustamos dinamicamente a função de vantagem para amostras com variados níveis de certeza da trajetória, configurando assim a função de vantagem de forma adaptativa para considerar características específicas de cada amostra. A comparação com métodos relacionados de última geração, juntamente com estudos de ablação sobre diferentes variantes de vantagem, valida a eficácia da nossa abordagem.
English
Recent advances in reinforcement learning for foundation models, such as
Group Relative Policy Optimization (GRPO), have significantly improved the
performance of foundation models on reasoning tasks. Notably, the advantage
function serves as a central mechanism in GRPO for ranking the trajectory
importance. However, existing explorations encounter both advantage reversion
and advantage mirror problems, which hinder the reasonable advantage allocation
across different query samples. In this work, we propose an easy but effective
GRPO strategy, Mixed Advantage Policy Optimization (MAPO). We reveal that the
trajectory appears with different certainty and propose the advantage percent
deviation for samples with high-certainty trajectories. Furthermore, we
dynamically reweight the advantage function for samples with varying trajectory
certainty, thereby adaptively configuring the advantage function to account for
sample-specific characteristics. Comparison with related state-of-the-art
methods, along with ablation studies on different advantage variants, validates
the effectiveness of our approach.