ChatPaper.aiChatPaper

ReFIne: Un Marco para Modelos de Razonamiento a Gran Escala Confiables con Fiabilidad, Fidelidad e Interpretabilidad

ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability

October 10, 2025
Autores: Chung-En Sun, Ge Yan, Akshay Kulkarni, Tsui-Wei Weng
cs.AI

Resumen

Los avances recientes en el razonamiento de cadena larga de pensamiento (CoT, por sus siglas en inglés) han priorizado en gran medida la precisión de las respuestas y la eficiencia de tokens, pasando por alto aspectos críticos para la confiabilidad. Argumentamos que los sistemas de razonamiento utilizables deben ser confiables, caracterizados por tres propiedades: interpretabilidad, fidelidad y fiabilidad. Con este fin, proponemos ReFIne, un nuevo marco de entrenamiento que integra el ajuste fino supervisado con GRPO para fomentar que los modelos: (i) mejoren la interpretabilidad al producir trazas estructuradas basadas en etiquetas con planificación de alto nivel que sean más fáciles de seguir para los humanos; (ii) aumenten la fidelidad al revelar explícitamente la información decisiva que guía cada solución, con referencias transversales consistentes; y (iii) promuevan la fiabilidad al proporcionar autoevaluaciones tanto de la solidez de la derivación como de la confianza en la respuesta final. Aplicamos ReFIne a los modelos Qwen3 en múltiples escalas (1.7B/4B/8B) y evaluamos en puntos de referencia matemáticos de diversa dificultad. Nuestros resultados experimentales muestran que los modelos ReFIne generan trazas de razonamiento más claras y mejor estructuradas (interpretabilidad +44.0%), exponen de manera más fiel su proceso de decisión subyacente (fidelidad +18.8%) y ofrecen estimaciones de confianza informativas (fiabilidad +42.4%). Estos hallazgos destacan una dirección importante pero pasada por alto: los modelos de razonamiento deben optimizarse no solo para la precisión, sino también para dimensiones más amplias de confiabilidad. Nuestro código está disponible en: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine.
English
Recent advances in long chain-of-thought (CoT) reasoning have largely prioritized answer accuracy and token efficiency, while overlooking aspects critical to trustworthiness. We argue that usable reasoning systems must be trustworthy, characterized by three properties: interpretability, faithfulness, and reliability. To this end, we propose ReFIne, a new training framework that integrates supervised fine-tuning with GRPO to encourage models to: (i) improve interpretability by producing structured, tag-based traces with high-level planning that are easier for humans to follow; (ii) enhance faithfulness by explicitly disclosing the decisive information guiding each solution, with consistent cross-section references; and (iii) promote reliability by providing self-assessments of both the derivation's soundness and the confidence of the final answer. We apply ReFIne to the Qwen3 models at multiple scales (1.7B/4B/8B) and evaluate across mathematical benchmarks of varying difficulty. Our experimental results show that ReFIne models generate clearer and better-structured reasoning traces (interpretability +44.0%), more faithfully expose their underlying decision process (faithfulness +18.8%), and offer informative confidence estimates (reliability +42.4%). These findings highlight an overlooked but important direction: reasoning models should be optimized not only for accuracy, but also for broader dimensions of trustworthiness. Our code is available at: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
PDF12October 15, 2025