Hölder-beleidsoptimalisatie

Samenvatting

Groepsrelatieve Beleidsoptimalisatie (GRPO) verbetert grote taalmodellen door voordelen te schatten over een groep gesamplede trajecten. Het mappen van deze voordelen op trajectniveau naar beleidsupdates vereist echter aggregatie van kansen op token-niveau binnen elke sequentie. Vertrouwen op een vast aggregatiemechanisme voor deze stap beperkt fundamenteel de aanpasbaarheid van het algoritme. Empirisch observeren we een kritieke afweging: bepaalde vaste aggregaties lijden vaak onder instorting van de training, terwijl andere geen bevredigende prestaties opleveren. Om dit op te lossen stellen we HölderPO voor, een gegeneraliseerd beleidsoptimalisatieraamwerk dat kansenaggregatie op token-niveau verenigt via het Hölder-gemiddelde. Door expliciet de parameter p te moduleren, biedt ons raamwerk continue controle over de afweging tussen gradiëntconcentratie en variantiegrenzen. Theoretisch bewijzen we dat een grotere p de gradiënt concentreert om schaarse leersignalen te versterken, terwijl een kleinere p de gradiëntvariantie strikt begrenst. Omdat geen statische configuratie deze concentratie-stabiliteitsafweging universeel kan oplossen, instantiëren we het raamwerk met een dynamisch annealeringsalgoritme dat p progressief inplant over de trainingslevenscyclus. Uitgebreide evaluaties tonen superieure stabiliteit en convergentie aan ten opzichte van bestaande baselines. Specifiek behaalt onze aanpak een state-of-the-art gemiddelde nauwkeurigheid van 54,9% over meerdere wiskundige benchmarks, wat een substantiële relatieve winst van 7,2% oplevert ten opzichte van standaard GRPO en een uitzonderlijk succespercentage van 93,8% op ALFWorld.

English

Group Relative Policy Optimisation (GRPO) enhances large language models by estimating advantages across a group of sampled trajectories. However, mapping these trajectory-level advantages to policy updates requires aggregating token-level probabilities within each sequence. Relying on a fixed aggregation mechanism for this step fundamentally limits the algorithm's adaptability. Empirically, we observe a critical trade-off: certain fixed aggregations frequently suffer from training collapse, while others fail to yield satisfactory performance. To resolve this, we propose HölderPO, a generalised policy optimisation framework unifying token-level probability aggregation via the Hölder mean. By explicitly modulating the parameter p, our framework provides continuous control over the trade-off between gradient concentration and variance bounds. Theoretically, we prove that a larger p concentrates the gradient to amplify sparse learning signals, whereas a smaller p strictly bounds gradient variance. Because no static configuration can universally resolve this concentration-stability trade-off, we instantiate the framework with a dynamic annealing algorithm that progressively schedules p across the training lifecycle. Extensive evaluations demonstrate superior stability and convergence over existing baselines. Specifically, our approach achieves a state-of-the-art average accuracy of 54.9% across multiple mathematical benchmarks, yielding a substantial 7.2% relative gain over standard GRPO and secures an exceptional 93.8% success rate on ALFWorld.