MAPO: Gemengd Voordeelbeleid Optimalisatie
MAPO: Mixed Advantage Policy Optimization
September 23, 2025
Auteurs: Wenke Huang, Quan Zhang, Yiyang Fang, Jian Liang, Xuankun Rong, Huanjin Yao, Guancheng Wan, Ke Liang, Wenwen He, Mingjun Li, Leszek Rutkowski, Mang Ye, Bo Du, Dacheng Tao
cs.AI
Samenvatting
Recente vooruitgang in reinforcement learning voor foundation models, zoals
Group Relative Policy Optimization (GRPO), heeft de prestaties van foundation
models op redeneertaken aanzienlijk verbeterd. Met name de advantage-functie
dient als een centraal mechanisme in GRPO voor het rangschikken van de
belangrijkheid van trajecten. Bestaande onderzoeken kampen echter met zowel
advantage-reversie als advantage-spiegelproblemen, die een redelijke
advantage-toewijzing over verschillende querysamples belemmeren. In dit werk
stellen we een eenvoudige maar effectieve GRPO-strategie voor, Mixed Advantage
Policy Optimization (MAPO). We tonen aan dat trajecten met verschillende
zekerheid verschijnen en introduceren de advantage-percentdeviatie voor samples
met trajecten van hoge zekerheid. Bovendien herwegen we de advantage-functie
dynamisch voor samples met uiteenlopende trajectzekerheid, waardoor de
advantage-functie adaptief wordt geconfigureerd om rekening te houden met
specifieke kenmerken van samples. Vergelijkingen met gerelateerde state-of-the-art
methoden, samen met ablatiestudies op verschillende advantage-varianten,
valideren de effectiviteit van onze aanpak.
English
Recent advances in reinforcement learning for foundation models, such as
Group Relative Policy Optimization (GRPO), have significantly improved the
performance of foundation models on reasoning tasks. Notably, the advantage
function serves as a central mechanism in GRPO for ranking the trajectory
importance. However, existing explorations encounter both advantage reversion
and advantage mirror problems, which hinder the reasonable advantage allocation
across different query samples. In this work, we propose an easy but effective
GRPO strategy, Mixed Advantage Policy Optimization (MAPO). We reveal that the
trajectory appears with different certainty and propose the advantage percent
deviation for samples with high-certainty trajectories. Furthermore, we
dynamically reweight the advantage function for samples with varying trajectory
certainty, thereby adaptively configuring the advantage function to account for
sample-specific characteristics. Comparison with related state-of-the-art
methods, along with ablation studies on different advantage variants, validates
the effectiveness of our approach.