MAPO: Optimización de Políticas con Ventaja Mixta

Resumen

Los recientes avances en el aprendizaje por refuerzo para modelos fundacionales, como la Optimización de Políticas Relativas por Grupos (GRPO), han mejorado significativamente el rendimiento de estos modelos en tareas de razonamiento. Cabe destacar que la función de ventaja actúa como un mecanismo central en GRPO para clasificar la importancia de las trayectorias. Sin embargo, las exploraciones existentes se enfrentan tanto al problema de reversión de la ventaja como al problema de espejo de la ventaja, lo que dificulta la asignación razonable de la ventaja entre diferentes muestras de consulta. En este trabajo, proponemos una estrategia GRPO sencilla pero efectiva, la Optimización de Políticas con Ventaja Mixta (MAPO). Revelamos que la trayectoria aparece con diferentes grados de certeza y proponemos la desviación porcentual de la ventaja para muestras con trayectorias de alta certeza. Además, reajustamos dinámicamente la función de ventaja para muestras con distintos grados de certeza en la trayectoria, configurando así de manera adaptativa la función de ventaja para tener en cuenta las características específicas de cada muestra. La comparación con métodos relacionados de última generación, junto con estudios de ablación sobre diferentes variantes de la ventaja, valida la efectividad de nuestro enfoque.

English

Recent advances in reinforcement learning for foundation models, such as Group Relative Policy Optimization (GRPO), have significantly improved the performance of foundation models on reasoning tasks. Notably, the advantage function serves as a central mechanism in GRPO for ranking the trajectory importance. However, existing explorations encounter both advantage reversion and advantage mirror problems, which hinder the reasonable advantage allocation across different query samples. In this work, we propose an easy but effective GRPO strategy, Mixed Advantage Policy Optimization (MAPO). We reveal that the trajectory appears with different certainty and propose the advantage percent deviation for samples with high-certainty trajectories. Furthermore, we dynamically reweight the advantage function for samples with varying trajectory certainty, thereby adaptively configuring the advantage function to account for sample-specific characteristics. Comparison with related state-of-the-art methods, along with ablation studies on different advantage variants, validates the effectiveness of our approach.

MAPO: Optimización de Políticas con Ventaja Mixta

MAPO: Mixed Advantage Policy Optimization

Resumen

Support