リストワイズ方策最適化:LLM応答シンプレックス上のターゲット射影としてのグループベースRLVR
Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex
May 7, 2026
著者: Yun Qu, Qi Wang, Yixiu Mao, Heming Zou, Yuhang Jiang, Yingyue Li, Wutong Xu, Lizhou Cai, Weijie Liu, Clive Bai, Kai Yang, Yangkun Chen, Saiyong Yang, Xiangyang Ji
cs.AI
要旨
検証可能報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を促進するためのポストトレーニング手法として標準的なアプローチとなりつつある。既存の手法の中では、グループベースの方策勾配が広く用いられており、これはプロンプトごとに複数の応答をサンプリングし、グループ内の相対的なアドバンテージ信号に基づいて方策を更新する。本研究では、これらの最適化戦略が共通の幾何学的構造を持つことを明らかにする。すなわち、それぞれが応答単体上で暗黙的に目標分布を定義し、一次近似を通じてその目標分布へ向けて射影を行う。この洞察に基づき、本論文ではリストワイズ方策最適化(LPO)を提案し、目標分布への射影を明示的に実行する。具体的には、近接RLの目的関数を応答単体上に制限することで暗黙的な目標分布を明確化し、その後、正確なダイバージェンス最小化を通じて方策を射影する。本フレームワークは以下の特性を提供する。(i)有界でゼロサムかつ自己修正的な射影勾配を持つリストワイズ目的関数に対する単調な改善、(ii)分離された射影ステップを通じて、異なる構造的特性を持つダイバージェンス選択の柔軟性。多様な推論タスクとLLMバックボーンにおいて、LPOは目標を一致させた典型的な方策勾配ベースラインと比較して、トレーニング性能を一貫して向上させると同時に、最適化の安定性と応答の多様性を本質的に維持する。
English
Reinforcement learning with verifiable rewards (RLVR) has become a standard approach for large language models (LLMs) post-training to incentivize reasoning capacity. Among existing recipes, group-based policy gradient is prevalent, which samples a group of responses per prompt and updates the policy via group-relative advantage signals. This work reveals that these optimization strategies share a common geometric structure: each implicitly defines a target distribution on the response simplex and projects toward it via first-order approximation. Building on this insight, we propose Listwise Policy Optimization (LPO) to explicitly conduct the target-projection, which demystifies the implicit target by restricting the proximal RL objective to the response simplex, and then projects the policy via exact divergence minimization. This framework provides (i) monotonic improvement on the listwise objective with bounded, zero-sum, and self-correcting projection gradients, and (ii) flexibility in divergence selection with distinct structural properties through the decoupled projection step. On diverse reasoning tasks and LLM backbones, LPO consistently improves training performance over typical policy gradient baselines under matched targets, while intrinsically preserving optimization stability and response diversity.