Optimización de Políticas por Lista: RLVR Basado en Grupos como Proyección de Objetivos en el Símplex de Respuesta de LLM

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) se ha convertido en un enfoque estándar para los modelos de lenguaje de gran escala (LLM) después del entrenamiento, con el fin de incentivar su capacidad de razonamiento. Entre las metodologías existentes, el gradiente de políticas basado en grupos es predominante, el cual genera un conjunto de respuestas por estímulo y actualiza la política mediante señales de ventaja relativas al grupo. Este trabajo revela que estas estrategias de optimización comparten una estructura geométrica común: cada una define implícitamente una distribución objetivo en el símplex de respuestas y se proyecta hacia ella mediante una aproximación de primer orden. Basándonos en esta observación, proponemos la Optimización de Políticas por Listas (LPO, por sus siglas en inglés) para realizar explícitamente la proyección-objetivo, la cual desmitifica el objetivo implícito al restringir el objetivo proximal de RL al símplex de respuestas y luego proyecta la política mediante la minimización exacta de divergencia. Este marco proporciona (i) una mejora monótona en el objetivo por listas con gradientes de proyección acotados, de suma cero y autocorrectivos, y (ii) flexibilidad en la selección de divergencias con propiedades estructurales distintas mediante el paso de proyección desacoplado. En diversas tareas de razonamiento y arquitecturas de LLM, LPO mejora consistentemente el rendimiento del entrenamiento en comparación con los métodos de gradiente de políticas típicos bajo objetivos equivalentes, preservando intrínsecamente la estabilidad de optimización y la diversidad de respuestas.

English

Reinforcement learning with verifiable rewards (RLVR) has become a standard approach for large language models (LLMs) post-training to incentivize reasoning capacity. Among existing recipes, group-based policy gradient is prevalent, which samples a group of responses per prompt and updates the policy via group-relative advantage signals. This work reveals that these optimization strategies share a common geometric structure: each implicitly defines a target distribution on the response simplex and projects toward it via first-order approximation. Building on this insight, we propose Listwise Policy Optimization (LPO) to explicitly conduct the target-projection, which demystifies the implicit target by restricting the proximal RL objective to the response simplex, and then projects the policy via exact divergence minimization. This framework provides (i) monotonic improvement on the listwise objective with bounded, zero-sum, and self-correcting projection gradients, and (ii) flexibility in divergence selection with distinct structural properties through the decoupled projection step. On diverse reasoning tasks and LLM backbones, LPO consistently improves training performance over typical policy gradient baselines under matched targets, while intrinsically preserving optimization stability and response diversity.

Optimización de Políticas por Lista: RLVR Basado en Grupos como Proyección de Objetivos en el Símplex de Respuesta de LLM

Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

Resumen

Support