GCPO: Cuando el contraste falla, opta por el oro.
GCPO: When Contrast Fails, Go Gold
October 9, 2025
Autores: Hao Wu, Wei Liu
cs.AI
Resumen
El aprendizaje por refuerzo se ha aplicado ampliamente para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala. Extender los límites de inferencia de modelos más pequeños se ha convertido en un enfoque de investigación destacado. Sin embargo, algoritmos como la Optimización de Política Relativa de Grupo (GRPO) presentan una clara desventaja: el límite superior de las respuestas generadas por el modelo está completamente determinado por el propio modelo, lo que impide la adquisición de conocimiento a partir de muestras que son todas incorrectas o todas correctas. En este artículo, presentamos la Optimización de Política Contrastiva de Grupo (GCPO), un método que incorpora respuestas de referencia estándar externas. Cuando el modelo no puede resolver un problema, la respuesta de referencia proporciona la solución correcta, guiando al modelo hacia una dirección de actualización inequívocamente precisa. Este enfoque ofrece dos ventajas principales: (1) mejora la eficiencia del entrenamiento al aprovechar completamente cada muestra; (2) permite que el modelo emule la estrategia de resolución de problemas de la respuesta de referencia durante el entrenamiento, mejorando así la generalización en el razonamiento. GCPO logra resultados sobresalientes en múltiples conjuntos de datos de referencia, obteniendo mejoras sustanciales sobre el modelo base. Nuestro código está disponible en: https://github.com/AchoWu/GCPO.
English
Reinforcement learning has been widely applied to enhance the reasoning
capabilities of large language models. Extending the inference limits of
smaller models has become a prominent research focus. However, algorithms such
as Group Relative Policy Optimization (GRPO) suffer from a clear drawback: the
upper bound of a model's rollout responses is entirely determined by the model
itself, preventing the acquisition of knowledge from samples that are either
all incorrect or all correct. In this paper, we introduce Group Contrastive
Policy Optimization (GCPO), a method that incorporates external standard
reference answers. When the model cannot solve a problem, the reference answer
supplies the correct response, steering the model toward an unequivocally
accurate update direction. This approach offers two main advantages: (1) it
improves training efficiency by fully utilizing every sample; (2) it enables
the model to emulate the problem solving strategy of the reference answer
during training, thereby enhancing generalization in reasoning. GCPO achieves
outstanding results across multiple benchmark datasets, yielding substantial
improvements over the baseline model. Our code is available at:
https://github.com/AchoWu/GCPO.