ReFIne: Un Marco para Modelos de Razonamiento a Gran Escala Confiables con Fiabilidad, Fidelidad e Interpretabilidad
ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability
October 10, 2025
Autores: Chung-En Sun, Ge Yan, Akshay Kulkarni, Tsui-Wei Weng
cs.AI
Resumen
Los avances recientes en el razonamiento de cadena larga de pensamiento (CoT, por sus siglas en inglés) han priorizado en gran medida la precisión de las respuestas y la eficiencia de tokens, pasando por alto aspectos críticos para la confiabilidad. Argumentamos que los sistemas de razonamiento utilizables deben ser confiables, caracterizados por tres propiedades: interpretabilidad, fidelidad y fiabilidad. Con este fin, proponemos ReFIne, un nuevo marco de entrenamiento que integra el ajuste fino supervisado con GRPO para fomentar que los modelos: (i) mejoren la interpretabilidad al producir trazas estructuradas basadas en etiquetas con planificación de alto nivel que sean más fáciles de seguir para los humanos; (ii) aumenten la fidelidad al revelar explícitamente la información decisiva que guía cada solución, con referencias transversales consistentes; y (iii) promuevan la fiabilidad al proporcionar autoevaluaciones tanto de la solidez de la derivación como de la confianza en la respuesta final. Aplicamos ReFIne a los modelos Qwen3 en múltiples escalas (1.7B/4B/8B) y evaluamos en puntos de referencia matemáticos de diversa dificultad. Nuestros resultados experimentales muestran que los modelos ReFIne generan trazas de razonamiento más claras y mejor estructuradas (interpretabilidad +44.0%), exponen de manera más fiel su proceso de decisión subyacente (fidelidad +18.8%) y ofrecen estimaciones de confianza informativas (fiabilidad +42.4%). Estos hallazgos destacan una dirección importante pero pasada por alto: los modelos de razonamiento deben optimizarse no solo para la precisión, sino también para dimensiones más amplias de confiabilidad. Nuestro código está disponible en: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine.
English
Recent advances in long chain-of-thought (CoT) reasoning have largely
prioritized answer accuracy and token efficiency, while overlooking aspects
critical to trustworthiness. We argue that usable reasoning systems must be
trustworthy, characterized by three properties: interpretability, faithfulness,
and reliability. To this end, we propose ReFIne, a new training framework that
integrates supervised fine-tuning with GRPO to encourage models to: (i) improve
interpretability by producing structured, tag-based traces with high-level
planning that are easier for humans to follow; (ii) enhance faithfulness by
explicitly disclosing the decisive information guiding each solution, with
consistent cross-section references; and (iii) promote reliability by providing
self-assessments of both the derivation's soundness and the confidence of the
final answer. We apply ReFIne to the Qwen3 models at multiple scales
(1.7B/4B/8B) and evaluate across mathematical benchmarks of varying difficulty.
Our experimental results show that ReFIne models generate clearer and
better-structured reasoning traces (interpretability +44.0%), more faithfully
expose their underlying decision process (faithfulness +18.8%), and offer
informative confidence estimates (reliability +42.4%). These findings highlight
an overlooked but important direction: reasoning models should be optimized not
only for accuracy, but also for broader dimensions of trustworthiness. Our code
is available at:
https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine