Optimización de Políticas de Hölder

Resumen

La Optimización de Políticas Relativas por Grupos (GRPO) mejora los modelos de lenguaje grandes al estimar ventajas a través de un grupo de trayectorias muestreadas. Sin embargo, el mapeo de estas ventajas a nivel de trayectoria a las actualizaciones de política requiere agregar las probabilidades a nivel de token dentro de cada secuencia. Depender de un mecanismo de agregación fijo para este paso limita fundamentalmente la adaptabilidad del algoritmo. Empíricamente, observamos un compromiso crítico: ciertas agregaciones fijas sufren con frecuencia colapso en el entrenamiento, mientras que otras no logran un rendimiento satisfactorio. Para resolver esto, proponemos HölderPO, un marco de optimización de políticas generalizado que unifica la agregación de probabilidades a nivel de token mediante la media de Hölder. Al modular explícitamente el parámetro \( p \), nuestro marco proporciona un control continuo sobre el compromiso entre la concentración del gradiente y los límites de varianza. Teóricamente, demostramos que un \( p \) mayor concentra el gradiente para amplificar señales de aprendizaje dispersas, mientras que un \( p \) menor acota estrictamente la varianza del gradiente. Debido a que ninguna configuración estática puede resolver universalmente este compromiso entre concentración y estabilidad, materializamos el marco con un algoritmo de recocido dinámico que programa progresivamente \( p \) a lo largo del ciclo de vida del entrenamiento. Evaluaciones exhaustivas demuestran una estabilidad y convergencia superiores en comparación con las líneas base existentes. Específicamente, nuestro enfoque alcanza una precisión media del estado del arte de 54,9% en múltiples puntos de referencia matemáticos, lo que supone una ganancia relativa sustancial del 7,2% sobre GRPO estándar, y asegura una excepcional tasa de éxito del 93,8% en ALFWorld.

English

Group Relative Policy Optimisation (GRPO) enhances large language models by estimating advantages across a group of sampled trajectories. However, mapping these trajectory-level advantages to policy updates requires aggregating token-level probabilities within each sequence. Relying on a fixed aggregation mechanism for this step fundamentally limits the algorithm's adaptability. Empirically, we observe a critical trade-off: certain fixed aggregations frequently suffer from training collapse, while others fail to yield satisfactory performance. To resolve this, we propose HölderPO, a generalised policy optimisation framework unifying token-level probability aggregation via the Hölder mean. By explicitly modulating the parameter p, our framework provides continuous control over the trade-off between gradient concentration and variance bounds. Theoretically, we prove that a larger p concentrates the gradient to amplify sparse learning signals, whereas a smaller p strictly bounds gradient variance. Because no static configuration can universally resolve this concentration-stability trade-off, we instantiate the framework with a dynamic annealing algorithm that progressively schedules p across the training lifecycle. Extensive evaluations demonstrate superior stability and convergence over existing baselines. Specifically, our approach achieves a state-of-the-art average accuracy of 54.9% across multiple mathematical benchmarks, yielding a substantial 7.2% relative gain over standard GRPO and secures an exceptional 93.8% success rate on ALFWorld.