ChatPaper.aiChatPaper

GCPO: Cuando el contraste falla, opta por el oro.

GCPO: When Contrast Fails, Go Gold

October 9, 2025
Autores: Hao Wu, Wei Liu
cs.AI

Resumen

El aprendizaje por refuerzo se ha aplicado ampliamente para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala. Extender los límites de inferencia de modelos más pequeños se ha convertido en un enfoque de investigación destacado. Sin embargo, algoritmos como la Optimización de Política Relativa de Grupo (GRPO) presentan una clara desventaja: el límite superior de las respuestas generadas por el modelo está completamente determinado por el propio modelo, lo que impide la adquisición de conocimiento a partir de muestras que son todas incorrectas o todas correctas. En este artículo, presentamos la Optimización de Política Contrastiva de Grupo (GCPO), un método que incorpora respuestas de referencia estándar externas. Cuando el modelo no puede resolver un problema, la respuesta de referencia proporciona la solución correcta, guiando al modelo hacia una dirección de actualización inequívocamente precisa. Este enfoque ofrece dos ventajas principales: (1) mejora la eficiencia del entrenamiento al aprovechar completamente cada muestra; (2) permite que el modelo emule la estrategia de resolución de problemas de la respuesta de referencia durante el entrenamiento, mejorando así la generalización en el razonamiento. GCPO logra resultados sobresalientes en múltiples conjuntos de datos de referencia, obteniendo mejoras sustanciales sobre el modelo base. Nuestro código está disponible en: https://github.com/AchoWu/GCPO.
English
Reinforcement learning has been widely applied to enhance the reasoning capabilities of large language models. Extending the inference limits of smaller models has become a prominent research focus. However, algorithms such as Group Relative Policy Optimization (GRPO) suffer from a clear drawback: the upper bound of a model's rollout responses is entirely determined by the model itself, preventing the acquisition of knowledge from samples that are either all incorrect or all correct. In this paper, we introduce Group Contrastive Policy Optimization (GCPO), a method that incorporates external standard reference answers. When the model cannot solve a problem, the reference answer supplies the correct response, steering the model toward an unequivocally accurate update direction. This approach offers two main advantages: (1) it improves training efficiency by fully utilizing every sample; (2) it enables the model to emulate the problem solving strategy of the reference answer during training, thereby enhancing generalization in reasoning. GCPO achieves outstanding results across multiple benchmark datasets, yielding substantial improvements over the baseline model. Our code is available at: https://github.com/AchoWu/GCPO.
PDF33October 10, 2025