ChatPaper.aiChatPaper

GCPO: Quando o Contraste Falha, Opte pelo Ouro

GCPO: When Contrast Fails, Go Gold

October 9, 2025
Autores: Hao Wu, Wei Liu
cs.AI

Resumo

O aprendizado por reforço tem sido amplamente aplicado para aprimorar as capacidades de raciocínio de grandes modelos de linguagem. Estender os limites de inferência de modelos menores tornou-se um foco de pesquisa proeminente. No entanto, algoritmos como o Group Relative Policy Optimization (GRPO) sofrem de uma desvantagem clara: o limite superior das respostas geradas pelo modelo é inteiramente determinado pelo próprio modelo, impedindo a aquisição de conhecimento a partir de amostras que são todas incorretas ou todas corretas. Neste artigo, introduzimos o Group Contrastive Policy Optimization (GCPO), um método que incorpora respostas de referência externas padrão. Quando o modelo não consegue resolver um problema, a resposta de referência fornece a solução correta, direcionando o modelo para uma atualização inequivocamente precisa. Essa abordagem oferece duas vantagens principais: (1) melhora a eficiência do treinamento ao utilizar plenamente cada amostra; (2) permite que o modelo emule a estratégia de resolução de problemas da resposta de referência durante o treinamento, aprimorando assim a generalização no raciocínio. O GCPO alcança resultados excepcionais em vários conjuntos de dados de referência, proporcionando melhorias substanciais em relação ao modelo base. Nosso código está disponível em: https://github.com/AchoWu/GCPO.
English
Reinforcement learning has been widely applied to enhance the reasoning capabilities of large language models. Extending the inference limits of smaller models has become a prominent research focus. However, algorithms such as Group Relative Policy Optimization (GRPO) suffer from a clear drawback: the upper bound of a model's rollout responses is entirely determined by the model itself, preventing the acquisition of knowledge from samples that are either all incorrect or all correct. In this paper, we introduce Group Contrastive Policy Optimization (GCPO), a method that incorporates external standard reference answers. When the model cannot solve a problem, the reference answer supplies the correct response, steering the model toward an unequivocally accurate update direction. This approach offers two main advantages: (1) it improves training efficiency by fully utilizing every sample; (2) it enables the model to emulate the problem solving strategy of the reference answer during training, thereby enhancing generalization in reasoning. GCPO achieves outstanding results across multiple benchmark datasets, yielding substantial improvements over the baseline model. Our code is available at: https://github.com/AchoWu/GCPO.
PDF53October 10, 2025