Optimisation de politique Listwise : RLVR basé sur des groupes comme projection cible sur le simplexe des réponses du LLM

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu une approche standard pour le post-entraînement des grands modèles de langage (LLMs) afin de stimuler leur capacité de raisonnement. Parmi les méthodes existantes, le gradient de politique basé sur des groupes est prédominant : il échantillonne un groupe de réponses par prompt et met à jour la politique à l'aide de signaux d'avantage relatifs au groupe. Ce travail révèle que ces stratégies d'optimisation partagent une structure géométrique commune : chacune définit implicitement une distribution cible sur le simplexe des réponses et projette vers celle-ci via une approximation du premier ordre. Forts de cette constatation, nous proposons l'Optimisation de Politique par Liste (LPO) pour effectuer explicitement la projection cible, ce qui démystifie la cible implicite en restreignant l'objectif RL proximal au simplexe des réponses, puis projette la politique via une minimisation exacte de divergence. Ce cadre offre (i) une amélioration monotone de l'objectif par liste avec des gradients de projection bornés, à somme nulle et auto-correcteurs, et (ii) une flexibilité dans le choix de la divergence avec des propriétés structurelles distinctes grâce à l'étape de projection découplée. Sur diverses tâches de raisonnement et architectures de base de LLMs, LPO améliore systématiquement la performance d'entraînement par rapport aux lignes de base typiques de gradient de politique, sous des cibles appariées, tout en préservant intrinsèquement la stabilité d'optimisation et la diversité des réponses.

English

Reinforcement learning with verifiable rewards (RLVR) has become a standard approach for large language models (LLMs) post-training to incentivize reasoning capacity. Among existing recipes, group-based policy gradient is prevalent, which samples a group of responses per prompt and updates the policy via group-relative advantage signals. This work reveals that these optimization strategies share a common geometric structure: each implicitly defines a target distribution on the response simplex and projects toward it via first-order approximation. Building on this insight, we propose Listwise Policy Optimization (LPO) to explicitly conduct the target-projection, which demystifies the implicit target by restricting the proximal RL objective to the response simplex, and then projects the policy via exact divergence minimization. This framework provides (i) monotonic improvement on the listwise objective with bounded, zero-sum, and self-correcting projection gradients, and (ii) flexibility in divergence selection with distinct structural properties through the decoupled projection step. On diverse reasoning tasks and LLM backbones, LPO consistently improves training performance over typical policy gradient baselines under matched targets, while intrinsically preserving optimization stability and response diversity.