MAPO: Optimización de Políticas con Ventaja Mixta
MAPO: Mixed Advantage Policy Optimization
September 23, 2025
Autores: Wenke Huang, Quan Zhang, Yiyang Fang, Jian Liang, Xuankun Rong, Huanjin Yao, Guancheng Wan, Ke Liang, Wenwen He, Mingjun Li, Leszek Rutkowski, Mang Ye, Bo Du, Dacheng Tao
cs.AI
Resumen
Los recientes avances en el aprendizaje por refuerzo para modelos fundacionales, como la Optimización de Políticas Relativas por Grupos (GRPO), han mejorado significativamente el rendimiento de estos modelos en tareas de razonamiento. Cabe destacar que la función de ventaja actúa como un mecanismo central en GRPO para clasificar la importancia de las trayectorias. Sin embargo, las exploraciones existentes se enfrentan tanto al problema de reversión de la ventaja como al problema de espejo de la ventaja, lo que dificulta la asignación razonable de la ventaja entre diferentes muestras de consulta. En este trabajo, proponemos una estrategia GRPO sencilla pero efectiva, la Optimización de Políticas con Ventaja Mixta (MAPO). Revelamos que la trayectoria aparece con diferentes grados de certeza y proponemos la desviación porcentual de la ventaja para muestras con trayectorias de alta certeza. Además, reajustamos dinámicamente la función de ventaja para muestras con distintos grados de certeza en la trayectoria, configurando así de manera adaptativa la función de ventaja para tener en cuenta las características específicas de cada muestra. La comparación con métodos relacionados de última generación, junto con estudios de ablación sobre diferentes variantes de la ventaja, valida la efectividad de nuestro enfoque.
English
Recent advances in reinforcement learning for foundation models, such as
Group Relative Policy Optimization (GRPO), have significantly improved the
performance of foundation models on reasoning tasks. Notably, the advantage
function serves as a central mechanism in GRPO for ranking the trajectory
importance. However, existing explorations encounter both advantage reversion
and advantage mirror problems, which hinder the reasonable advantage allocation
across different query samples. In this work, we propose an easy but effective
GRPO strategy, Mixed Advantage Policy Optimization (MAPO). We reveal that the
trajectory appears with different certainty and propose the advantage percent
deviation for samples with high-certainty trajectories. Furthermore, we
dynamically reweight the advantage function for samples with varying trajectory
certainty, thereby adaptively configuring the advantage function to account for
sample-specific characteristics. Comparison with related state-of-the-art
methods, along with ablation studies on different advantage variants, validates
the effectiveness of our approach.