MAPO : Optimisation de Politique à Avantage Mixte
MAPO: Mixed Advantage Policy Optimization
September 23, 2025
papers.authors: Wenke Huang, Quan Zhang, Yiyang Fang, Jian Liang, Xuankun Rong, Huanjin Yao, Guancheng Wan, Ke Liang, Wenwen He, Mingjun Li, Leszek Rutkowski, Mang Ye, Bo Du, Dacheng Tao
cs.AI
papers.abstract
Les récents progrès en apprentissage par renforcement pour les modèles de base, tels que l'Optimisation de Politique Relative par Groupe (Group Relative Policy Optimization, GRPO), ont considérablement amélioré les performances de ces modèles sur des tâches de raisonnement. Notamment, la fonction d'avantage joue un rôle central dans GRPO pour classer l'importance des trajectoires. Cependant, les explorations existantes rencontrent à la fois des problèmes de réversion d'avantage et de miroir d'avantage, ce qui entrave une allocation raisonnable de l'avantage entre les différents échantillons de requêtes. Dans ce travail, nous proposons une stratégie GRPO simple mais efficace, l'Optimisation de Politique à Avantage Mixte (Mixed Advantage Policy Optimization, MAPO). Nous révélons que la trajectoire apparaît avec une certitude variable et proposons la déviation en pourcentage de l'avantage pour les échantillons avec des trajectoires à haute certitude. De plus, nous pondérons dynamiquement la fonction d'avantage pour les échantillons avec des certitudes de trajectoire variables, configurant ainsi de manière adaptative la fonction d'avantage pour tenir compte des caractéristiques spécifiques à chaque échantillon. Une comparaison avec les méthodes état de l'art connexes, ainsi que des études d'ablation sur différentes variantes de l'avantage, valident l'efficacité de notre approche.
English
Recent advances in reinforcement learning for foundation models, such as
Group Relative Policy Optimization (GRPO), have significantly improved the
performance of foundation models on reasoning tasks. Notably, the advantage
function serves as a central mechanism in GRPO for ranking the trajectory
importance. However, existing explorations encounter both advantage reversion
and advantage mirror problems, which hinder the reasonable advantage allocation
across different query samples. In this work, we propose an easy but effective
GRPO strategy, Mixed Advantage Policy Optimization (MAPO). We reveal that the
trajectory appears with different certainty and propose the advantage percent
deviation for samples with high-certainty trajectories. Furthermore, we
dynamically reweight the advantage function for samples with varying trajectory
certainty, thereby adaptively configuring the advantage function to account for
sample-specific characteristics. Comparison with related state-of-the-art
methods, along with ablation studies on different advantage variants, validates
the effectiveness of our approach.