ChatPaper.aiChatPaper

GCPO : Quand le contraste échoue, optez pour l'or

GCPO: When Contrast Fails, Go Gold

October 9, 2025
papers.authors: Hao Wu, Wei Liu
cs.AI

papers.abstract

L'apprentissage par renforcement a été largement appliqué pour améliorer les capacités de raisonnement des grands modèles de langage. L'extension des limites d'inférence des modèles plus petits est devenue un axe de recherche majeur. Cependant, des algorithmes tels que l'Optimisation de Politique Relative par Groupe (Group Relative Policy Optimization, GRPO) présentent un inconvénient évident : la limite supérieure des réponses générées par le modèle est entièrement déterminée par le modèle lui-même, empêchant ainsi l'acquisition de connaissances à partir d'échantillons qui sont soit tous incorrects, soit tous corrects. Dans cet article, nous introduisons l'Optimisation de Politique Contrastive par Groupe (Group Contrastive Policy Optimization, GCPO), une méthode qui intègre des réponses de référence externes standardisées. Lorsque le modèle ne parvient pas à résoudre un problème, la réponse de référence fournit la solution correcte, orientant ainsi le modèle vers une direction de mise à jour clairement précise. Cette approche offre deux avantages principaux : (1) elle améliore l'efficacité de l'entraînement en exploitant pleinement chaque échantillon ; (2) elle permet au modèle d'imiter la stratégie de résolution de problèmes de la réponse de référence pendant l'entraînement, améliorant ainsi la généralisation dans le raisonnement. GCPO obtient des résultats exceptionnels sur plusieurs ensembles de données de référence, apportant des améliorations substantielles par rapport au modèle de base. Notre code est disponible à l'adresse suivante : https://github.com/AchoWu/GCPO.
English
Reinforcement learning has been widely applied to enhance the reasoning capabilities of large language models. Extending the inference limits of smaller models has become a prominent research focus. However, algorithms such as Group Relative Policy Optimization (GRPO) suffer from a clear drawback: the upper bound of a model's rollout responses is entirely determined by the model itself, preventing the acquisition of knowledge from samples that are either all incorrect or all correct. In this paper, we introduce Group Contrastive Policy Optimization (GCPO), a method that incorporates external standard reference answers. When the model cannot solve a problem, the reference answer supplies the correct response, steering the model toward an unequivocally accurate update direction. This approach offers two main advantages: (1) it improves training efficiency by fully utilizing every sample; (2) it enables the model to emulate the problem solving strategy of the reference answer during training, thereby enhancing generalization in reasoning. GCPO achieves outstanding results across multiple benchmark datasets, yielding substantial improvements over the baseline model. Our code is available at: https://github.com/AchoWu/GCPO.
PDF33October 10, 2025