CLIPO: Aprendizado Contrastante na Otimização de Políticas Generaliza RLVR

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) avançou significativamente a capacidade de raciocínio dos Modelos de Linguagem de Grande Porte (LLMs). No entanto, o RLVR depende exclusivamente de respostas finais como recompensas de resultado, negligenciando a correção das etapas de raciocínio intermediárias. O treinamento com base nestas execuções (rollouts) de processo incorreto, mas resultado correto, pode levar a alucinações e cópia de respostas, prejudicando gravemente a generalização e a robustez do modelo. Para resolver isso, incorporamos um mecanismo de Aprendizado Contrastivo na Otimização de Políticas (CLIPO) para generalizar o processo RLVR. Ao otimizar uma função de perda contrastiva sobre execuções bem-sucedidas, o CLIPO orienta o LLM a capturar a estrutura invariante compartilhada entre os caminhos de raciocínio corretos. Isso fornece uma regularização mais robusta entre trajetórias do que a supervisão de caminho único original no RLVR, mitigando efetivamente inconsistências no raciocínio a nível de etapa e suprimindo artefatos alucinatórios. Em experimentos, o CLIPO melhorou consistentemente várias linhas de base do RLVR em diversos benchmarks de raciocínio, demonstrando melhorias uniformes na generalização e robustez para a otimização de políticas de LLMs. Nosso código e receitas de treinamento estão disponíveis em https://github.com/Qwen-Applications/CLIPO.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has significantly advanced the reasoning capacity of Large Language Models (LLMs). However, RLVR solely relies on final answers as outcome rewards, neglecting the correctness of intermediate reasoning steps. Training on these process-wrong but outcome-correct rollouts can lead to hallucination and answer-copying, severely undermining the model's generalization and robustness. To address this, we incorporate a Contrastive Learning mechanism into the Policy Optimization (CLIPO) to generalize the RLVR process. By optimizing a contrastive loss over successful rollouts, CLIPO steers the LLM to capture the invariant structure shared across correct reasoning paths. This provides a more robust cross-trajectory regularization than the original single-path supervision in RLVR, effectively mitigating step-level reasoning inconsistencies and suppressing hallucinatory artifacts. In experiments, CLIPO consistently improves multiple RLVR baselines across diverse reasoning benchmarks, demonstrating uniform improvements in generalization and robustness for policy optimization of LLMs. Our code and training recipes are available at https://github.com/Qwen-Applications/CLIPO.

CLIPO: Aprendizado Contrastante na Otimização de Políticas Generaliza RLVR

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

Resumo

Support