CLIPO: El Aprendizaje por Contraste en la Optimización de Políticas Generaliza RLVR

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha avanzado significativamente la capacidad de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs). Sin embargo, el RLVR depende únicamente de las respuestas finales como recompensas de resultado, descuidando la corrección de los pasos de razonamiento intermedios. Entrenar con estas trayectorias de proceso incorrecto pero resultado correcto puede conducir a alucinaciones y a la copia de respuestas, socavando gravemente la generalización y la robustez del modelo. Para abordar esto, incorporamos un mecanismo de Aprendizaje Contrastivo en la Optimización de Políticas (CLIPO) para generalizar el proceso RLVR. Al optimizar una pérdida contrastiva sobre las trayectorias exitosas, CLIPO guía al LLM para capturar la estructura invariante compartida entre las rutas de razonamiento correctas. Esto proporciona una regularización más robusta a través de trayectorias que la supervisión de trayectoria única original en RLVR, mitigando efectivamente las inconsistencias en el razonamiento a nivel de paso y suprimiendo artefactos alucinatorios. En los experimentos, CLIPO mejora consistentemente múltiples líneas base de RLVR en diversos puntos de referencia de razonamiento, demostrando mejoras uniformes en generalización y robustez para la optimización de políticas de LLMs. Nuestro código y recetas de entrenamiento están disponibles en https://github.com/Qwen-Applications/CLIPO.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has significantly advanced the reasoning capacity of Large Language Models (LLMs). However, RLVR solely relies on final answers as outcome rewards, neglecting the correctness of intermediate reasoning steps. Training on these process-wrong but outcome-correct rollouts can lead to hallucination and answer-copying, severely undermining the model's generalization and robustness. To address this, we incorporate a Contrastive Learning mechanism into the Policy Optimization (CLIPO) to generalize the RLVR process. By optimizing a contrastive loss over successful rollouts, CLIPO steers the LLM to capture the invariant structure shared across correct reasoning paths. This provides a more robust cross-trajectory regularization than the original single-path supervision in RLVR, effectively mitigating step-level reasoning inconsistencies and suppressing hallucinatory artifacts. In experiments, CLIPO consistently improves multiple RLVR baselines across diverse reasoning benchmarks, demonstrating uniform improvements in generalization and robustness for policy optimization of LLMs. Our code and training recipes are available at https://github.com/Qwen-Applications/CLIPO.

CLIPO: El Aprendizaje por Contraste en la Optimización de Políticas Generaliza RLVR

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

Resumen

Support