Hölder-Policy-Optimierung

Zusammenfassung

Die **Group Relative Policy Optimization (GRPO)** verbessert große Sprachmodelle, indem sie Vorteile über eine Gruppe abgetasteter Trajektorien schätzt. Die Abbildung dieser Vorteile auf Token-Ebene auf Policy-Updates erfordert jedoch die Aggregation von Token-Wahrscheinlichkeiten innerhalb jeder Sequenz. Ein fixierter Aggregationsmechanismus für diesen Schritt schränkt die Anpassungsfähigkeit des Algorithmus grundlegend ein. Empirisch beobachten wir einen kritischen Zielkonflikt: Bestimmte fixierte Aggregationen führen häufig zu einem Trainingskollaps, während andere keine zufriedenstellende Leistung erzielen. Um dies zu lösen, schlagen wir **HölderPO** vor, ein generalisiertes Policy-Optimierungs-Framework, das die Aggregation von Token-Wahrscheinlichkeiten mittels des Hölder-Mittels vereinheitlicht. Durch die explizite Modulation des Parameters p bietet unser Framework eine kontinuierliche Kontrolle über den Zielkonflikt zwischen Gradientenkonzentration und Varianzgrenzen. Theoretisch beweisen wir, dass ein größeres p den Gradienten konzentriert, um spärliche Lernsignale zu verstärken, während ein kleineres p die Gradientenvarianz strikt begrenzt. Da keine statische Konfiguration diesen Konzentrations-Stabilitäts-Zielkonflikt universell lösen kann, instantiieren wir das Framework mit einem dynamischen Annealing-Algorithmus, der p fortschreitend über den gesamten Trainingszyklus hinweg plant. Umfangreiche Evaluierungen zeigen eine überlegene Stabilität und Konvergenz im Vergleich zu bestehenden Basislinien. Insbesondere erreicht unser Ansatz eine durchschnittliche Genauigkeit von 54,9% über mehrere mathematische Benchmarks und erzielt damit einen substantiellen relativen Gewinn von 7,2% gegenüber Standard-GRPO sowie eine außergewöhnliche Erfolgsrate von 93,8% auf ALFWorld.

English

Group Relative Policy Optimisation (GRPO) enhances large language models by estimating advantages across a group of sampled trajectories. However, mapping these trajectory-level advantages to policy updates requires aggregating token-level probabilities within each sequence. Relying on a fixed aggregation mechanism for this step fundamentally limits the algorithm's adaptability. Empirically, we observe a critical trade-off: certain fixed aggregations frequently suffer from training collapse, while others fail to yield satisfactory performance. To resolve this, we propose HölderPO, a generalised policy optimisation framework unifying token-level probability aggregation via the Hölder mean. By explicitly modulating the parameter p, our framework provides continuous control over the trade-off between gradient concentration and variance bounds. Theoretically, we prove that a larger p concentrates the gradient to amplify sparse learning signals, whereas a smaller p strictly bounds gradient variance. Because no static configuration can universally resolve this concentration-stability trade-off, we instantiate the framework with a dynamic annealing algorithm that progressively schedules p across the training lifecycle. Extensive evaluations demonstrate superior stability and convergence over existing baselines. Specifically, our approach achieves a state-of-the-art average accuracy of 54.9% across multiple mathematical benchmarks, yielding a substantial 7.2% relative gain over standard GRPO and secures an exceptional 93.8% success rate on ALFWorld.