Otimização de Política de Hölder

Resumo

A Otimização de Política Relativa a Grupos (GRPO) aprimora modelos de linguagem de grande escala ao estimar vantagens em um grupo de trajetórias amostradas. No entanto, mapear essas vantagens em nível de trajetória para atualizações de política requer a agregação de probabilidades em nível de token dentro de cada sequência. Depender de um mecanismo de agregação fixo para essa etapa limita fundamentalmente a adaptabilidade do algoritmo. Empiricamente, observamos um trade-off crítico: certas agregações fixas frequentemente sofrem colapso no treinamento, enquanto outras não conseguem produzir desempenho satisfatório. Para resolver isso, propomos o HölderPO, uma estrutura generalizada de otimização de política que unifica a agregação de probabilidades em nível de token por meio da média de Hölder. Ao modular explicitamente o parâmetro p, nossa estrutura oferece controle contínuo sobre o trade-off entre concentração do gradiente e limites de variância. Teoricamente, provamos que um p maior concentra o gradiente para amplificar sinais de aprendizado esparsos, enquanto um p menor limita estritamente a variância do gradiente. Como nenhuma configuração estática pode resolver universalmente esse trade-off entre concentração e estabilidade, instanciamos a estrutura com um algoritmo de recozimento dinâmico que agenda progressivamente o p ao longo do ciclo de vida do treinamento. Avaliações extensas demonstram estabilidade e convergência superiores em relação às linhas de base existentes. Especificamente, nossa abordagem atinge uma precisão média de 54,9% em múltiplos benchmarks matemáticos, resultando em um ganho relativo substancial de 7,2% sobre a GRPO padrão, e garante uma taxa de sucesso excepcional de 93,8% no ALFWorld.

English

Group Relative Policy Optimisation (GRPO) enhances large language models by estimating advantages across a group of sampled trajectories. However, mapping these trajectory-level advantages to policy updates requires aggregating token-level probabilities within each sequence. Relying on a fixed aggregation mechanism for this step fundamentally limits the algorithm's adaptability. Empirically, we observe a critical trade-off: certain fixed aggregations frequently suffer from training collapse, while others fail to yield satisfactory performance. To resolve this, we propose HölderPO, a generalised policy optimisation framework unifying token-level probability aggregation via the Hölder mean. By explicitly modulating the parameter p, our framework provides continuous control over the trade-off between gradient concentration and variance bounds. Theoretically, we prove that a larger p concentrates the gradient to amplify sparse learning signals, whereas a smaller p strictly bounds gradient variance. Because no static configuration can universally resolve this concentration-stability trade-off, we instantiate the framework with a dynamic annealing algorithm that progressively schedules p across the training lifecycle. Extensive evaluations demonstrate superior stability and convergence over existing baselines. Specifically, our approach achieves a state-of-the-art average accuracy of 54.9% across multiple mathematical benchmarks, yielding a substantial 7.2% relative gain over standard GRPO and secures an exceptional 93.8% success rate on ALFWorld.