MAPO: Otimização de Política com Vantagem Mista

Resumo

Os recentes avanços no aprendizado por reforço para modelos de base, como a Otimização de Política Relativa de Grupo (Group Relative Policy Optimization - GRPO), melhoraram significativamente o desempenho de modelos de base em tarefas de raciocínio. Notavelmente, a função de vantagem serve como um mecanismo central na GRPO para classificar a importância da trajetória. No entanto, as explorações existentes enfrentam tanto o problema de reversão de vantagem quanto o problema de espelhamento de vantagem, que dificultam a alocação razoável de vantagem entre diferentes amostras de consulta. Neste trabalho, propomos uma estratégia GRPO simples, mas eficaz, chamada Otimização de Política de Vantagem Mista (Mixed Advantage Policy Optimization - MAPO). Revelamos que a trajetória aparece com diferentes níveis de certeza e propomos o desvio percentual de vantagem para amostras com trajetórias de alta certeza. Além disso, reajustamos dinamicamente a função de vantagem para amostras com variados níveis de certeza da trajetória, configurando assim a função de vantagem de forma adaptativa para considerar características específicas de cada amostra. A comparação com métodos relacionados de última geração, juntamente com estudos de ablação sobre diferentes variantes de vantagem, valida a eficácia da nossa abordagem.

English

Recent advances in reinforcement learning for foundation models, such as Group Relative Policy Optimization (GRPO), have significantly improved the performance of foundation models on reasoning tasks. Notably, the advantage function serves as a central mechanism in GRPO for ranking the trajectory importance. However, existing explorations encounter both advantage reversion and advantage mirror problems, which hinder the reasonable advantage allocation across different query samples. In this work, we propose an easy but effective GRPO strategy, Mixed Advantage Policy Optimization (MAPO). We reveal that the trajectory appears with different certainty and propose the advantage percent deviation for samples with high-certainty trajectories. Furthermore, we dynamically reweight the advantage function for samples with varying trajectory certainty, thereby adaptively configuring the advantage function to account for sample-specific characteristics. Comparison with related state-of-the-art methods, along with ablation studies on different advantage variants, validates the effectiveness of our approach.

MAPO: Otimização de Política com Vantagem Mista

MAPO: Mixed Advantage Policy Optimization

Resumo

Support