GCPO: Quando il Contrasto Fallisce, Passa all'Oro
GCPO: When Contrast Fails, Go Gold
October 9, 2025
Autori: Hao Wu, Wei Liu
cs.AI
Abstract
L'apprendimento per rinforzo è stato ampiamente applicato per potenziare le capacità di ragionamento dei grandi modelli linguistici. Estendere i limiti inferenziali dei modelli più piccoli è diventato un importante focus di ricerca. Tuttavia, algoritmi come l'ottimizzazione delle politiche relative ai gruppi (GRPO) presentano un evidente svantaggio: il limite superiore delle risposte generate dal modello è interamente determinato dal modello stesso, impedendo l'acquisizione di conoscenza da campioni che sono tutti errati o tutti corretti. In questo articolo, introduciamo l'ottimizzazione delle politiche contrastive di gruppo (GCPO), un metodo che incorpora risposte di riferimento esterne standard. Quando il modello non riesce a risolvere un problema, la risposta di riferimento fornisce la soluzione corretta, guidando il modello verso una direzione di aggiornamento inequivocabilmente accurata. Questo approccio offre due vantaggi principali: (1) migliora l'efficienza dell'addestramento sfruttando pienamente ogni campione; (2) consente al modello di emulare la strategia di risoluzione dei problemi della risposta di riferimento durante l'addestramento, migliorando così la generalizzazione nel ragionamento. GCPO ottiene risultati eccezionali su più dataset di benchmark, registrando miglioramenti sostanziali rispetto al modello di base. Il nostro codice è disponibile all'indirizzo: https://github.com/AchoWu/GCPO.
English
Reinforcement learning has been widely applied to enhance the reasoning
capabilities of large language models. Extending the inference limits of
smaller models has become a prominent research focus. However, algorithms such
as Group Relative Policy Optimization (GRPO) suffer from a clear drawback: the
upper bound of a model's rollout responses is entirely determined by the model
itself, preventing the acquisition of knowledge from samples that are either
all incorrect or all correct. In this paper, we introduce Group Contrastive
Policy Optimization (GCPO), a method that incorporates external standard
reference answers. When the model cannot solve a problem, the reference answer
supplies the correct response, steering the model toward an unequivocally
accurate update direction. This approach offers two main advantages: (1) it
improves training efficiency by fully utilizing every sample; (2) it enables
the model to emulate the problem solving strategy of the reference answer
during training, thereby enhancing generalization in reasoning. GCPO achieves
outstanding results across multiple benchmark datasets, yielding substantial
improvements over the baseline model. Our code is available at:
https://github.com/AchoWu/GCPO.