CLIPO: L'Apprendimento Contrastivo nell'Ottimizzazione delle Politiche Generalizza RLVR

Abstract

L’Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) ha migliorato significativamente la capacità di ragionamento dei Modelli Linguistici di Grande Dimensione (LLM). Tuttavia, RLVR si basa esclusivamente sulle risposte finali come ricompense di risultato, trascurando la correttezza dei passaggi di ragionamento intermedi. L'addestramento su questi rollout con processo errato ma risultato corretto può portare ad allucinazioni e copiatura delle risposte, minando gravemente la generalizzazione e la robustezza del modello. Per affrontare questo problema, integriamo un meccanismo di Apprendimento Contrastivo nell'Ottimizzazione della Politica (CLIPO) per generalizzare il processo RLVR. Ottimizzando una perdita contrastiva sui rollout di successo, CLIPO guida l'LLM a catturare la struttura invariante condivisa tra i percorsi di ragionamento corretti. Ciò fornisce una regolarizzazione cross-traiettoria più robusta rispetto alla supervisione a percorso singolo originale in RLVR, mitigando efficacemente le incoerenze di ragionamento a livello di passo e sopprimendo gli artefatti allucinatori. Negli esperimenti, CLIPO migliora costantemente molteplici baseline RLVR su diversi benchmark di ragionamento, dimostrando miglioramenti uniformi nella generalizzazione e robustezza per l'ottimizzazione della politica degli LLM. Il nostro codice e le ricette di addestramento sono disponibili su https://github.com/Qwen-Applications/CLIPO.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has significantly advanced the reasoning capacity of Large Language Models (LLMs). However, RLVR solely relies on final answers as outcome rewards, neglecting the correctness of intermediate reasoning steps. Training on these process-wrong but outcome-correct rollouts can lead to hallucination and answer-copying, severely undermining the model's generalization and robustness. To address this, we incorporate a Contrastive Learning mechanism into the Policy Optimization (CLIPO) to generalize the RLVR process. By optimizing a contrastive loss over successful rollouts, CLIPO steers the LLM to capture the invariant structure shared across correct reasoning paths. This provides a more robust cross-trajectory regularization than the original single-path supervision in RLVR, effectively mitigating step-level reasoning inconsistencies and suppressing hallucinatory artifacts. In experiments, CLIPO consistently improves multiple RLVR baselines across diverse reasoning benchmarks, demonstrating uniform improvements in generalization and robustness for policy optimization of LLMs. Our code and training recipes are available at https://github.com/Qwen-Applications/CLIPO.

CLIPO: L'Apprendimento Contrastivo nell'Ottimizzazione delle Politiche Generalizza RLVR

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

Abstract

Support