GCPO: Когда контраст не работает, переходим к золотому стандарту
GCPO: When Contrast Fails, Go Gold
October 9, 2025
Авторы: Hao Wu, Wei Liu
cs.AI
Аннотация
Обучение с подкреплением широко применяется для улучшения способностей крупных языковых моделей к рассуждению. Расширение пределов вывода меньших моделей стало важным направлением исследований. Однако алгоритмы, такие как Group Relative Policy Optimization (GRPO), имеют явный недостаток: верхняя граница ответов модели полностью определяется самой моделью, что препятствует усвоению знаний из выборок, которые либо полностью неверны, либо полностью правильны. В данной статье мы представляем метод Group Contrastive Policy Optimization (GCPO), который включает внешние эталонные ответы. Когда модель не может решить задачу, эталонный ответ предоставляет правильное решение, направляя модель в сторону однозначно точного направления обновления. Этот подход предлагает два основных преимущества: (1) он повышает эффективность обучения, полностью используя каждый образец; (2) он позволяет модели имитировать стратегию решения задач эталонного ответа в процессе обучения, тем самым улучшая обобщение в рассуждениях. GCPO демонстрирует выдающиеся результаты на множестве эталонных наборов данных, показывая значительные улучшения по сравнению с базовой моделью. Наш код доступен по адресу: https://github.com/AchoWu/GCPO.
English
Reinforcement learning has been widely applied to enhance the reasoning
capabilities of large language models. Extending the inference limits of
smaller models has become a prominent research focus. However, algorithms such
as Group Relative Policy Optimization (GRPO) suffer from a clear drawback: the
upper bound of a model's rollout responses is entirely determined by the model
itself, preventing the acquisition of knowledge from samples that are either
all incorrect or all correct. In this paper, we introduce Group Contrastive
Policy Optimization (GCPO), a method that incorporates external standard
reference answers. When the model cannot solve a problem, the reference answer
supplies the correct response, steering the model toward an unequivocally
accurate update direction. This approach offers two main advantages: (1) it
improves training efficiency by fully utilizing every sample; (2) it enables
the model to emulate the problem solving strategy of the reference answer
during training, thereby enhancing generalization in reasoning. GCPO achieves
outstanding results across multiple benchmark datasets, yielding substantial
improvements over the baseline model. Our code is available at:
https://github.com/AchoWu/GCPO.