GCPO: Quando il Contrasto Fallisce, Passa all'Oro

Abstract

L'apprendimento per rinforzo è stato ampiamente applicato per potenziare le capacità di ragionamento dei grandi modelli linguistici. Estendere i limiti inferenziali dei modelli più piccoli è diventato un importante focus di ricerca. Tuttavia, algoritmi come l'ottimizzazione delle politiche relative ai gruppi (GRPO) presentano un evidente svantaggio: il limite superiore delle risposte generate dal modello è interamente determinato dal modello stesso, impedendo l'acquisizione di conoscenza da campioni che sono tutti errati o tutti corretti. In questo articolo, introduciamo l'ottimizzazione delle politiche contrastive di gruppo (GCPO), un metodo che incorpora risposte di riferimento esterne standard. Quando il modello non riesce a risolvere un problema, la risposta di riferimento fornisce la soluzione corretta, guidando il modello verso una direzione di aggiornamento inequivocabilmente accurata. Questo approccio offre due vantaggi principali: (1) migliora l'efficienza dell'addestramento sfruttando pienamente ogni campione; (2) consente al modello di emulare la strategia di risoluzione dei problemi della risposta di riferimento durante l'addestramento, migliorando così la generalizzazione nel ragionamento. GCPO ottiene risultati eccezionali su più dataset di benchmark, registrando miglioramenti sostanziali rispetto al modello di base. Il nostro codice è disponibile all'indirizzo: https://github.com/AchoWu/GCPO.

English

Reinforcement learning has been widely applied to enhance the reasoning capabilities of large language models. Extending the inference limits of smaller models has become a prominent research focus. However, algorithms such as Group Relative Policy Optimization (GRPO) suffer from a clear drawback: the upper bound of a model's rollout responses is entirely determined by the model itself, preventing the acquisition of knowledge from samples that are either all incorrect or all correct. In this paper, we introduce Group Contrastive Policy Optimization (GCPO), a method that incorporates external standard reference answers. When the model cannot solve a problem, the reference answer supplies the correct response, steering the model toward an unequivocally accurate update direction. This approach offers two main advantages: (1) it improves training efficiency by fully utilizing every sample; (2) it enables the model to emulate the problem solving strategy of the reference answer during training, thereby enhancing generalization in reasoning. GCPO achieves outstanding results across multiple benchmark datasets, yielding substantial improvements over the baseline model. Our code is available at: https://github.com/AchoWu/GCPO.

GCPO: Quando il Contrasto Fallisce, Passa all'Oro

GCPO: When Contrast Fails, Go Gold

Abstract

Support