Desacoplamiento del Razonamiento y la Confianza: Resucitando la Calibración en el Aprendizaje por Refuerzo a partir de Recompensas Verificables

Resumen

El Aprendizaje por Refuerzo a partir de Recompensas Verificables (RLVR) mejora significativamente el razonamiento de los grandes modelos de lenguaje (LLM), pero sufre gravemente de una degeneración en la calibración, donde los modelos se vuelven excesivamente seguros en respuestas incorrectas. Estudios previos se han dedicado a incorporar directamente el objetivo de calibración en la función de optimización existente. Sin embargo, nuestro análisis teórico demuestra que existe un conflicto fundamental en el gradiente entre la optimización para maximizar la precisión de la política y minimizar el error de calibración. Basándonos en esta idea, proponemos DCPO, un marco simple pero efectivo que desacopla sistemáticamente los objetivos de razonamiento y calibración. Experimentos exhaustivos demuestran que nuestro DCPO no solo preserva una precisión comparable a la de GRPO, sino que también logra el mejor rendimiento de calibración y mitiga sustancialmente el problema de sobreconfianza. Nuestro estudio proporciona perspectivas valiosas y una solución práctica para un despliegue más confiable de los LLM.

English

Reinforcement Learning from Verifiable Rewards (RLVR) significantly enhances large language models (LLMs) reasoning but severely suffers from calibration degeneration, where models become excessively over-confident in incorrect answers. Previous studies devote to directly incorporating calibration objective into existing optimization target. However, our theoretical analysis demonstrates that there exists a fundamental gradient conflict between the optimization for maximizing policy accuracy and minimizing calibration error. Building on this insight, we propose DCPO, a simple yet effective framework that systematically decouples reasoning and calibration objectives. Extensive experiments demonstrate that our DCPO not only preserves accuracy on par with GRPO but also achieves the best calibration performance and substantially mitigates the over-confidence issue. Our study provides valuable insights and practical solution for more reliable LLM deployment.

Desacoplamiento del Razonamiento y la Confianza: Resucitando la Calibración en el Aprendizaje por Refuerzo a partir de Recompensas Verificables

Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

Resumen

Support