Asignación de Crédito de Token Contrastivo Guiado para Optimización de Políticas Discretas

Resumen

Los métodos de aprendizaje por refuerzo basados en ventajas grupales, como GRPO y DAPO, han demostrado un rendimiento sólido en diversos dominios, incluido el razonamiento matemático y la generación de texto a imagen. Sin embargo, su dependencia de recompensas a nivel de muestra introduce una limitación clave, ya que la asignación uniforme de créditos a todos los tokens no logra capturar contribuciones detalladas a nivel de token. Para abordar este problema, proponemos la Optimización Contrastiva de Políticas Guiada (GCPO, por sus siglas en inglés), un algoritmo novedoso que permite la asignación de créditos por token mediante la comparación de predicciones del modelo bajo indicaciones positivas y negativas. En lugar de difundir uniformemente las ventajas a nivel de muestra, GCPO asigna ventajas a nivel de token proporcionales a la diferencia entre estas predicciones contrastivas, lo que proporciona señales de aprendizaje más precisas e informativas. Empíricamente, encontramos que GCPO enfatiza regiones semánticamente relevantes, como áreas visuales alineadas con indicaciones textuales en la generación de texto a imagen, y palabras clave críticas dentro de trazas de razonamiento para tareas de cadena de pensamiento. Mediante experimentos exhaustivos, GCPO supera consistentemente a las líneas base de GRPO y DAPO tanto en benchmarks de generación de texto a imagen como de razonamiento en cadena de pensamiento, demostrando su eficacia como una estrategia de optimización general y escalable para el aprendizaje de políticas discretas.

English

Group-advantage-based reinforcement learning methods, such as GRPO and DAPO, have demonstrated strong performance across diverse domains, including mathematical reasoning and text-to-image generation. However, their reliance on sample-level rewards introduces a key limitation as uniform credit assignment across all tokens fails to capture fine-grained, token-level contributions. To address this issue, we propose Guidance Contrastive Policy Optimization (GCPO), a novel algorithm that enables per-token credit assignment by contrasting model predictions under positive and negative prompts. Rather than uniformly broadcasting sample-level advantages, GCPO assigns token-level advantages proportional to the difference between these contrastive predictions, allowing more precise and informative learning signals. Empirically, we find that GCPO emphasizes semantically relevant regions such as visual areas aligned with textual prompts in text-to-image generation, and critical keywords within reasoning traces for chain-of-thought tasks. Through extensive experiments, GCPO consistently outperforms GRPO and DAPO baselines on both text-to-image generation and chain-of-thought reasoning benchmarks, demonstrating its effectiveness as a general and scalable optimization strategy for discrete policy learning.