ChatPaper.aiChatPaper

MAPO: Gemischte Vorteils-Policy-Optimierung

MAPO: Mixed Advantage Policy Optimization

September 23, 2025
papers.authors: Wenke Huang, Quan Zhang, Yiyang Fang, Jian Liang, Xuankun Rong, Huanjin Yao, Guancheng Wan, Ke Liang, Wenwen He, Mingjun Li, Leszek Rutkowski, Mang Ye, Bo Du, Dacheng Tao
cs.AI

papers.abstract

Jüngste Fortschritte im Bereich des Reinforcement Learning für Foundation-Modelle, wie beispielsweise die Group Relative Policy Optimization (GRPO), haben die Leistung von Foundation-Modellen bei Reasoning-Aufgaben erheblich verbessert. Insbesondere fungiert die Advantage-Funktion als zentraler Mechanismus in GRPO, um die Bedeutung von Trajektorien zu bewerten. Allerdings stoßen bestehende Ansätze auf die Probleme der Advantage-Revertion und des Advantage-Mirroring, die eine sinnvolle Zuweisung von Vorteilen über verschiedene Abfragebeispiele hinweg behindern. In dieser Arbeit schlagen wir eine einfache, aber effektive GRPO-Strategie vor, die Mixed Advantage Policy Optimization (MAPO). Wir zeigen, dass Trajektorien mit unterschiedlicher Sicherheit auftreten und führen die prozentuale Abweichung des Vorteils für Beispiele mit hochsicheren Trajektorien ein. Darüber hinaus gewichten wir die Advantage-Funktion dynamisch für Beispiele mit unterschiedlicher Trajektoriensicherheit neu, wodurch die Advantage-Funktion adaptiv an die spezifischen Merkmale der Beispiele angepasst wird. Vergleiche mit verwandten State-of-the-Art-Methoden sowie Ablationsstudien zu verschiedenen Advantage-Varianten bestätigen die Wirksamkeit unseres Ansatzes.
English
Recent advances in reinforcement learning for foundation models, such as Group Relative Policy Optimization (GRPO), have significantly improved the performance of foundation models on reasoning tasks. Notably, the advantage function serves as a central mechanism in GRPO for ranking the trajectory importance. However, existing explorations encounter both advantage reversion and advantage mirror problems, which hinder the reasonable advantage allocation across different query samples. In this work, we propose an easy but effective GRPO strategy, Mixed Advantage Policy Optimization (MAPO). We reveal that the trajectory appears with different certainty and propose the advantage percent deviation for samples with high-certainty trajectories. Furthermore, we dynamically reweight the advantage function for samples with varying trajectory certainty, thereby adaptively configuring the advantage function to account for sample-specific characteristics. Comparison with related state-of-the-art methods, along with ablation studies on different advantage variants, validates the effectiveness of our approach.
PDF252September 24, 2025