MAPO: Ottimizzazione delle Politiche con Vantaggio Misto

Abstract

I recenti progressi nell'apprendimento per rinforzo per modelli di base, come l'ottimizzazione delle politiche relative ai gruppi (GRPO), hanno migliorato significativamente le prestazioni dei modelli di base nei compiti di ragionamento. In particolare, la funzione di vantaggio rappresenta un meccanismo centrale nel GRPO per classificare l'importanza delle traiettorie. Tuttavia, le esplorazioni esistenti incontrano sia il problema della reversione del vantaggio che quello dello specchio del vantaggio, che ostacolano un'allocazione ragionevole del vantaggio tra diversi campioni di query. In questo lavoro, proponiamo una strategia GRPO semplice ma efficace, l'ottimizzazione delle politiche con vantaggio misto (MAPO). Riveliamo che la traiettoria si presenta con diversa certezza e proponiamo la deviazione percentuale del vantaggio per campioni con traiettorie ad alta certezza. Inoltre, rivalutiamo dinamicamente la funzione di vantaggio per campioni con diversa certezza della traiettoria, configurando così in modo adattivo la funzione di vantaggio per tenere conto delle caratteristiche specifiche del campione. Il confronto con i metodi correlati all'avanguardia, insieme a studi di ablazione su diverse varianti del vantaggio, convalida l'efficacia del nostro approccio.

English

Recent advances in reinforcement learning for foundation models, such as Group Relative Policy Optimization (GRPO), have significantly improved the performance of foundation models on reasoning tasks. Notably, the advantage function serves as a central mechanism in GRPO for ranking the trajectory importance. However, existing explorations encounter both advantage reversion and advantage mirror problems, which hinder the reasonable advantage allocation across different query samples. In this work, we propose an easy but effective GRPO strategy, Mixed Advantage Policy Optimization (MAPO). We reveal that the trajectory appears with different certainty and propose the advantage percent deviation for samples with high-certainty trajectories. Furthermore, we dynamically reweight the advantage function for samples with varying trajectory certainty, thereby adaptively configuring the advantage function to account for sample-specific characteristics. Comparison with related state-of-the-art methods, along with ablation studies on different advantage variants, validates the effectiveness of our approach.

MAPO: Ottimizzazione delle Politiche con Vantaggio Misto

MAPO: Mixed Advantage Policy Optimization

Abstract

Support