Гёльдер-оптимизация политики

Аннотация

Групповая относительная оптимизация политики (GRPO) улучшает большие языковые модели путем оценки преимуществ в группе выборочных траекторий. Однако отображение этих преимуществ на уровне траекторий на обновления политики требует агрегирования вероятностей на уровне токенов внутри каждой последовательности. Использование фиксированного механизма агрегирования на этом шаге принципиально ограничивает адаптивность алгоритма. Эмпирически мы наблюдаем критический компромисс: некоторые фиксированные агрегирования часто приводят к коллапсу обучения, в то время как другие не дают удовлетворительной производительности. Чтобы решить эту проблему, мы предлагаем HölderPO — обобщенную структуру оптимизации политики, объединяющую агрегирование вероятностей на уровне токенов с помощью среднего Гёльдера. Путем явного изменения параметра p наша структура обеспечивает непрерывный контроль над компромиссом между концентрацией градиента и границами дисперсии. Теоретически мы доказываем, что большее p концентрирует градиент для усиления разреженных сигналов обучения, тогда как меньшее p строго ограничивает дисперсию градиента. Поскольку никакая статическая конфигурация не может универсально разрешить этот компромисс между концентрацией и стабильностью, мы реализуем структуру с помощью динамического алгоритма отжига, который постепенно изменяет p на протяжении всего цикла обучения. Обширные оценки демонстрируют превосходную стабильность и сходимость по сравнению с существующими базовыми моделями. В частности, наш подход достигает современной средней точности 54,9% по множеству математических эталонов, что дает существенный относительный прирост в 7,2% по сравнению со стандартным GRPO и обеспечивает исключительный уровень успеха 93,8% на ALFWorld.

English

Group Relative Policy Optimisation (GRPO) enhances large language models by estimating advantages across a group of sampled trajectories. However, mapping these trajectory-level advantages to policy updates requires aggregating token-level probabilities within each sequence. Relying on a fixed aggregation mechanism for this step fundamentally limits the algorithm's adaptability. Empirically, we observe a critical trade-off: certain fixed aggregations frequently suffer from training collapse, while others fail to yield satisfactory performance. To resolve this, we propose HölderPO, a generalised policy optimisation framework unifying token-level probability aggregation via the Hölder mean. By explicitly modulating the parameter p, our framework provides continuous control over the trade-off between gradient concentration and variance bounds. Theoretically, we prove that a larger p concentrates the gradient to amplify sparse learning signals, whereas a smaller p strictly bounds gradient variance. Because no static configuration can universally resolve this concentration-stability trade-off, we instantiate the framework with a dynamic annealing algorithm that progressively schedules p across the training lifecycle. Extensive evaluations demonstrate superior stability and convergence over existing baselines. Specifically, our approach achieves a state-of-the-art average accuracy of 54.9% across multiple mathematical benchmarks, yielding a substantial 7.2% relative gain over standard GRPO and secures an exceptional 93.8% success rate on ALFWorld.