ChatPaper.aiChatPaper

MAPO: Gemengd Voordeelbeleid Optimalisatie

MAPO: Mixed Advantage Policy Optimization

September 23, 2025
Auteurs: Wenke Huang, Quan Zhang, Yiyang Fang, Jian Liang, Xuankun Rong, Huanjin Yao, Guancheng Wan, Ke Liang, Wenwen He, Mingjun Li, Leszek Rutkowski, Mang Ye, Bo Du, Dacheng Tao
cs.AI

Samenvatting

Recente vooruitgang in reinforcement learning voor foundation models, zoals Group Relative Policy Optimization (GRPO), heeft de prestaties van foundation models op redeneertaken aanzienlijk verbeterd. Met name de advantage-functie dient als een centraal mechanisme in GRPO voor het rangschikken van de belangrijkheid van trajecten. Bestaande onderzoeken kampen echter met zowel advantage-reversie als advantage-spiegelproblemen, die een redelijke advantage-toewijzing over verschillende querysamples belemmeren. In dit werk stellen we een eenvoudige maar effectieve GRPO-strategie voor, Mixed Advantage Policy Optimization (MAPO). We tonen aan dat trajecten met verschillende zekerheid verschijnen en introduceren de advantage-percentdeviatie voor samples met trajecten van hoge zekerheid. Bovendien herwegen we de advantage-functie dynamisch voor samples met uiteenlopende trajectzekerheid, waardoor de advantage-functie adaptief wordt geconfigureerd om rekening te houden met specifieke kenmerken van samples. Vergelijkingen met gerelateerde state-of-the-art methoden, samen met ablatiestudies op verschillende advantage-varianten, valideren de effectiviteit van onze aanpak.
English
Recent advances in reinforcement learning for foundation models, such as Group Relative Policy Optimization (GRPO), have significantly improved the performance of foundation models on reasoning tasks. Notably, the advantage function serves as a central mechanism in GRPO for ranking the trajectory importance. However, existing explorations encounter both advantage reversion and advantage mirror problems, which hinder the reasonable advantage allocation across different query samples. In this work, we propose an easy but effective GRPO strategy, Mixed Advantage Policy Optimization (MAPO). We reveal that the trajectory appears with different certainty and propose the advantage percent deviation for samples with high-certainty trajectories. Furthermore, we dynamically reweight the advantage function for samples with varying trajectory certainty, thereby adaptively configuring the advantage function to account for sample-specific characteristics. Comparison with related state-of-the-art methods, along with ablation studies on different advantage variants, validates the effectiveness of our approach.
PDF262September 24, 2025