MAPO: Оптимизация политики со смешанным преимуществом

Аннотация

Последние достижения в области обучения с подкреплением для базовых моделей, такие как Group Relative Policy Optimization (GRPO), значительно улучшили производительность базовых моделей на задачах логического вывода. В частности, функция преимущества играет ключевую роль в GRPO для ранжирования важности траекторий. Однако существующие исследования сталкиваются с проблемами реверсии преимущества и зеркального отражения преимущества, что затрудняет разумное распределение преимуществ между различными образцами запросов. В данной работе мы предлагаем простую, но эффективную стратегию GRPO — Mixed Advantage Policy Optimization (MAPO). Мы показываем, что траектории проявляются с разной степенью уверенности, и вводим отклонение процента преимущества для образцов с высокоуверенными траекториями. Кроме того, мы динамически перевзвешиваем функцию преимущества для образцов с различной уверенностью траекторий, тем самым адаптивно настраивая функцию преимущества с учетом специфических характеристик каждого образца. Сравнение с современными методами, а также исследования влияния различных вариантов функции преимущества, подтверждают эффективность нашего подхода.

English

Recent advances in reinforcement learning for foundation models, such as Group Relative Policy Optimization (GRPO), have significantly improved the performance of foundation models on reasoning tasks. Notably, the advantage function serves as a central mechanism in GRPO for ranking the trajectory importance. However, existing explorations encounter both advantage reversion and advantage mirror problems, which hinder the reasonable advantage allocation across different query samples. In this work, we propose an easy but effective GRPO strategy, Mixed Advantage Policy Optimization (MAPO). We reveal that the trajectory appears with different certainty and propose the advantage percent deviation for samples with high-certainty trajectories. Furthermore, we dynamically reweight the advantage function for samples with varying trajectory certainty, thereby adaptively configuring the advantage function to account for sample-specific characteristics. Comparison with related state-of-the-art methods, along with ablation studies on different advantage variants, validates the effectiveness of our approach.

MAPO: Оптимизация политики со смешанным преимуществом

MAPO: Mixed Advantage Policy Optimization

Аннотация

Support