ChatPaper.aiChatPaper

GCPO: Wenn Kontrast versagt, setze auf Gold

GCPO: When Contrast Fails, Go Gold

October 9, 2025
papers.authors: Hao Wu, Wei Liu
cs.AI

papers.abstract

Reinforcement Learning wurde weitreichend eingesetzt, um die Fähigkeiten großer Sprachmodelle im Bereich des logischen Denkens zu verbessern. Die Erweiterung der Inferenzgrenzen kleinerer Modelle ist zu einem zentralen Forschungsschwerpunkt geworden. Allerdings weisen Algorithmen wie Group Relative Policy Optimization (GRPO) einen deutlichen Nachteil auf: Die Obergrenze der Rollout-Antworten eines Modells wird vollständig durch das Modell selbst bestimmt, was den Erwerb von Wissen aus Proben verhindert, die entweder vollständig falsch oder vollständig korrekt sind. In diesem Artikel stellen wir Group Contrastive Policy Optimization (GCPO) vor, eine Methode, die externe Standardreferenzantworten einbezieht. Wenn das Modell ein Problem nicht lösen kann, liefert die Referenzantwort die korrekte Lösung und lenkt das Modell in eine eindeutig akkurate Aktualisierungsrichtung. Dieser Ansatz bietet zwei Hauptvorteile: (1) Er verbessert die Trainings effizienz, indem jede Probe vollständig genutzt wird; (2) Er ermöglicht es dem Modell, während des Trainings die Problemlösungsstrategie der Referenzantwort nachzuahmen und dadurch die Generalisierung im logischen Denken zu verbessern. GCPO erzielt hervorragende Ergebnisse über mehrere Benchmark-Datensätze hinweg und zeigt deutliche Verbesserungen gegenüber dem Basismodell. Unser Code ist verfügbar unter: https://github.com/AchoWu/GCPO.
English
Reinforcement learning has been widely applied to enhance the reasoning capabilities of large language models. Extending the inference limits of smaller models has become a prominent research focus. However, algorithms such as Group Relative Policy Optimization (GRPO) suffer from a clear drawback: the upper bound of a model's rollout responses is entirely determined by the model itself, preventing the acquisition of knowledge from samples that are either all incorrect or all correct. In this paper, we introduce Group Contrastive Policy Optimization (GCPO), a method that incorporates external standard reference answers. When the model cannot solve a problem, the reference answer supplies the correct response, steering the model toward an unequivocally accurate update direction. This approach offers two main advantages: (1) it improves training efficiency by fully utilizing every sample; (2) it enables the model to emulate the problem solving strategy of the reference answer during training, thereby enhancing generalization in reasoning. GCPO achieves outstanding results across multiple benchmark datasets, yielding substantial improvements over the baseline model. Our code is available at: https://github.com/AchoWu/GCPO.
PDF33October 10, 2025