Optimisation de politique Hölder

Résumé

L'Optimisation Relative de Politique par Groupe (GRPO) améliore les grands modèles de langage en estimant les avantages à travers un groupe de trajectoires échantillonnées. Cependant, la mise en correspondance de ces avantages au niveau des trajectoires avec les mises à jour de la politique nécessite d'agréger les probabilités au niveau des tokens au sein de chaque séquence. Le fait de s'appuyer sur un mécanisme d'agrégation fixe pour cette étape limite fondamentalement l'adaptabilité de l'algorithme. Empiriquement, nous observons un compromis critique : certaines agrégations fixes souffrent fréquemment d'un effondrement de l'entraînement, tandis que d'autres ne parviennent pas à produire des performances satisfaisantes. Pour résoudre ce problème, nous proposons HölderPO, un cadre d'optimisation de politique généralisé qui unifie l'agrégation des probabilités au niveau des tokens via la moyenne de Hölder. En modulant explicitement le paramètre p, notre cadre offre un contrôle continu sur le compromis entre la concentration du gradient et les bornes de variance. Théoriquement, nous prouvons qu’un p plus élevé concentre le gradient pour amplifier les signaux d’apprentissage épars, tandis qu’un p plus faible borne strictement la variance du gradient. Étant donné qu’aucune configuration statique ne peut résoudre universellement ce compromis concentration-stabilité, nous instancions le cadre avec un algorithme de recuit dynamique qui planifie progressivement p tout au long du cycle d’entraînement. Des évaluations approfondies démontrent une stabilité et une convergence supérieures par rapport aux bases de référence existantes. Plus précisément, notre approche atteint une précision moyenne de 54,9 % (état de l’art) sur plusieurs benchmarks mathématiques, réalisant un gain relatif substantiel de 7,2 % par rapport à la GRPO standard, et obtient un taux de réussite exceptionnel de 93,8 % sur ALFWorld.

English

Group Relative Policy Optimisation (GRPO) enhances large language models by estimating advantages across a group of sampled trajectories. However, mapping these trajectory-level advantages to policy updates requires aggregating token-level probabilities within each sequence. Relying on a fixed aggregation mechanism for this step fundamentally limits the algorithm's adaptability. Empirically, we observe a critical trade-off: certain fixed aggregations frequently suffer from training collapse, while others fail to yield satisfactory performance. To resolve this, we propose HölderPO, a generalised policy optimisation framework unifying token-level probability aggregation via the Hölder mean. By explicitly modulating the parameter p, our framework provides continuous control over the trade-off between gradient concentration and variance bounds. Theoretically, we prove that a larger p concentrates the gradient to amplify sparse learning signals, whereas a smaller p strictly bounds gradient variance. Because no static configuration can universally resolve this concentration-stability trade-off, we instantiate the framework with a dynamic annealing algorithm that progressively schedules p across the training lifecycle. Extensive evaluations demonstrate superior stability and convergence over existing baselines. Specifically, our approach achieves a state-of-the-art average accuracy of 54.9% across multiple mathematical benchmarks, yielding a substantial 7.2% relative gain over standard GRPO and secures an exceptional 93.8% success rate on ALFWorld.