GCPO: Wanneer Contrast Faalt, Ga voor Goud
GCPO: When Contrast Fails, Go Gold
October 9, 2025
Auteurs: Hao Wu, Wei Liu
cs.AI
Samenvatting
Reinforcement learning is op grote schaal toegepast om de redeneervaardigheden van grote taalmodelen te verbeteren. Het uitbreiden van de inferentiegrenzen van kleinere modellen is een prominent onderzoeksfocus geworden. Echter, algoritmen zoals Group Relative Policy Optimization (GRPO) hebben een duidelijk nadeel: de bovengrens van de rollout-responsen van een model wordt volledig bepaald door het model zelf, wat het verwerven van kennis uit steekproeven die ofwel volledig incorrect of volledig correct zijn, verhindert. In dit artikel introduceren we Group Contrastive Policy Optimization (GCPO), een methode die externe standaardreferentieantwoorden incorporeert. Wanneer het model een probleem niet kan oplossen, biedt het referentieantwoord de juiste respons, waardoor het model in een ondubbelzinnig accurate update-richting wordt gestuurd. Deze aanpak biedt twee belangrijke voordelen: (1) het verbetert de trainingsefficiëntie door elk sample volledig te benutten; (2) het stelt het model in staat om tijdens de training de probleemoplossingsstrategie van het referentieantwoord na te bootsen, waardoor de generalisatie in redenering wordt verbeterd. GCPO behaalt uitstekende resultaten op meerdere benchmarkdatasets, met aanzienlijke verbeteringen ten opzichte van het basismodel. Onze code is beschikbaar op: https://github.com/AchoWu/GCPO.
English
Reinforcement learning has been widely applied to enhance the reasoning
capabilities of large language models. Extending the inference limits of
smaller models has become a prominent research focus. However, algorithms such
as Group Relative Policy Optimization (GRPO) suffer from a clear drawback: the
upper bound of a model's rollout responses is entirely determined by the model
itself, preventing the acquisition of knowledge from samples that are either
all incorrect or all correct. In this paper, we introduce Group Contrastive
Policy Optimization (GCPO), a method that incorporates external standard
reference answers. When the model cannot solve a problem, the reference answer
supplies the correct response, steering the model toward an unequivocally
accurate update direction. This approach offers two main advantages: (1) it
improves training efficiency by fully utilizing every sample; (2) it enables
the model to emulate the problem solving strategy of the reference answer
during training, thereby enhancing generalization in reasoning. GCPO achieves
outstanding results across multiple benchmark datasets, yielding substantial
improvements over the baseline model. Our code is available at:
https://github.com/AchoWu/GCPO.