MAPO: Ottimizzazione delle Politiche con Vantaggio Misto
MAPO: Mixed Advantage Policy Optimization
September 23, 2025
Autori: Wenke Huang, Quan Zhang, Yiyang Fang, Jian Liang, Xuankun Rong, Huanjin Yao, Guancheng Wan, Ke Liang, Wenwen He, Mingjun Li, Leszek Rutkowski, Mang Ye, Bo Du, Dacheng Tao
cs.AI
Abstract
I recenti progressi nell'apprendimento per rinforzo per modelli di base, come l'ottimizzazione delle politiche relative ai gruppi (GRPO), hanno migliorato significativamente le prestazioni dei modelli di base nei compiti di ragionamento. In particolare, la funzione di vantaggio rappresenta un meccanismo centrale nel GRPO per classificare l'importanza delle traiettorie. Tuttavia, le esplorazioni esistenti incontrano sia il problema della reversione del vantaggio che quello dello specchio del vantaggio, che ostacolano un'allocazione ragionevole del vantaggio tra diversi campioni di query. In questo lavoro, proponiamo una strategia GRPO semplice ma efficace, l'ottimizzazione delle politiche con vantaggio misto (MAPO). Riveliamo che la traiettoria si presenta con diversa certezza e proponiamo la deviazione percentuale del vantaggio per campioni con traiettorie ad alta certezza. Inoltre, rivalutiamo dinamicamente la funzione di vantaggio per campioni con diversa certezza della traiettoria, configurando così in modo adattivo la funzione di vantaggio per tenere conto delle caratteristiche specifiche del campione. Il confronto con i metodi correlati all'avanguardia, insieme a studi di ablazione su diverse varianti del vantaggio, convalida l'efficacia del nostro approccio.
English
Recent advances in reinforcement learning for foundation models, such as
Group Relative Policy Optimization (GRPO), have significantly improved the
performance of foundation models on reasoning tasks. Notably, the advantage
function serves as a central mechanism in GRPO for ranking the trajectory
importance. However, existing explorations encounter both advantage reversion
and advantage mirror problems, which hinder the reasonable advantage allocation
across different query samples. In this work, we propose an easy but effective
GRPO strategy, Mixed Advantage Policy Optimization (MAPO). We reveal that the
trajectory appears with different certainty and propose the advantage percent
deviation for samples with high-certainty trajectories. Furthermore, we
dynamically reweight the advantage function for samples with varying trajectory
certainty, thereby adaptively configuring the advantage function to account for
sample-specific characteristics. Comparison with related state-of-the-art
methods, along with ablation studies on different advantage variants, validates
the effectiveness of our approach.