GCPO : Quand le contraste échoue, optez pour l'or
GCPO: When Contrast Fails, Go Gold
October 9, 2025
papers.authors: Hao Wu, Wei Liu
cs.AI
papers.abstract
L'apprentissage par renforcement a été largement appliqué pour améliorer les capacités de raisonnement des grands modèles de langage. L'extension des limites d'inférence des modèles plus petits est devenue un axe de recherche majeur. Cependant, des algorithmes tels que l'Optimisation de Politique Relative par Groupe (Group Relative Policy Optimization, GRPO) présentent un inconvénient évident : la limite supérieure des réponses générées par le modèle est entièrement déterminée par le modèle lui-même, empêchant ainsi l'acquisition de connaissances à partir d'échantillons qui sont soit tous incorrects, soit tous corrects. Dans cet article, nous introduisons l'Optimisation de Politique Contrastive par Groupe (Group Contrastive Policy Optimization, GCPO), une méthode qui intègre des réponses de référence externes standardisées. Lorsque le modèle ne parvient pas à résoudre un problème, la réponse de référence fournit la solution correcte, orientant ainsi le modèle vers une direction de mise à jour clairement précise. Cette approche offre deux avantages principaux : (1) elle améliore l'efficacité de l'entraînement en exploitant pleinement chaque échantillon ; (2) elle permet au modèle d'imiter la stratégie de résolution de problèmes de la réponse de référence pendant l'entraînement, améliorant ainsi la généralisation dans le raisonnement. GCPO obtient des résultats exceptionnels sur plusieurs ensembles de données de référence, apportant des améliorations substantielles par rapport au modèle de base. Notre code est disponible à l'adresse suivante : https://github.com/AchoWu/GCPO.
English
Reinforcement learning has been widely applied to enhance the reasoning
capabilities of large language models. Extending the inference limits of
smaller models has become a prominent research focus. However, algorithms such
as Group Relative Policy Optimization (GRPO) suffer from a clear drawback: the
upper bound of a model's rollout responses is entirely determined by the model
itself, preventing the acquisition of knowledge from samples that are either
all incorrect or all correct. In this paper, we introduce Group Contrastive
Policy Optimization (GCPO), a method that incorporates external standard
reference answers. When the model cannot solve a problem, the reference answer
supplies the correct response, steering the model toward an unequivocally
accurate update direction. This approach offers two main advantages: (1) it
improves training efficiency by fully utilizing every sample; (2) it enables
the model to emulate the problem solving strategy of the reference answer
during training, thereby enhancing generalization in reasoning. GCPO achieves
outstanding results across multiple benchmark datasets, yielding substantial
improvements over the baseline model. Our code is available at:
https://github.com/AchoWu/GCPO.