ReFIne: Un Marco para Modelos de Razonamiento a Gran Escala Confiables con Fiabilidad, Fidelidad e Interpretabilidad

Resumen

Los avances recientes en el razonamiento de cadena larga de pensamiento (CoT, por sus siglas en inglés) han priorizado en gran medida la precisión de las respuestas y la eficiencia de tokens, pasando por alto aspectos críticos para la confiabilidad. Argumentamos que los sistemas de razonamiento utilizables deben ser confiables, caracterizados por tres propiedades: interpretabilidad, fidelidad y fiabilidad. Con este fin, proponemos ReFIne, un nuevo marco de entrenamiento que integra el ajuste fino supervisado con GRPO para fomentar que los modelos: (i) mejoren la interpretabilidad al producir trazas estructuradas basadas en etiquetas con planificación de alto nivel que sean más fáciles de seguir para los humanos; (ii) aumenten la fidelidad al revelar explícitamente la información decisiva que guía cada solución, con referencias transversales consistentes; y (iii) promuevan la fiabilidad al proporcionar autoevaluaciones tanto de la solidez de la derivación como de la confianza en la respuesta final. Aplicamos ReFIne a los modelos Qwen3 en múltiples escalas (1.7B/4B/8B) y evaluamos en puntos de referencia matemáticos de diversa dificultad. Nuestros resultados experimentales muestran que los modelos ReFIne generan trazas de razonamiento más claras y mejor estructuradas (interpretabilidad +44.0%), exponen de manera más fiel su proceso de decisión subyacente (fidelidad +18.8%) y ofrecen estimaciones de confianza informativas (fiabilidad +42.4%). Estos hallazgos destacan una dirección importante pero pasada por alto: los modelos de razonamiento deben optimizarse no solo para la precisión, sino también para dimensiones más amplias de confiabilidad. Nuestro código está disponible en: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine.

English

Recent advances in long chain-of-thought (CoT) reasoning have largely prioritized answer accuracy and token efficiency, while overlooking aspects critical to trustworthiness. We argue that usable reasoning systems must be trustworthy, characterized by three properties: interpretability, faithfulness, and reliability. To this end, we propose ReFIne, a new training framework that integrates supervised fine-tuning with GRPO to encourage models to: (i) improve interpretability by producing structured, tag-based traces with high-level planning that are easier for humans to follow; (ii) enhance faithfulness by explicitly disclosing the decisive information guiding each solution, with consistent cross-section references; and (iii) promote reliability by providing self-assessments of both the derivation's soundness and the confidence of the final answer. We apply ReFIne to the Qwen3 models at multiple scales (1.7B/4B/8B) and evaluate across mathematical benchmarks of varying difficulty. Our experimental results show that ReFIne models generate clearer and better-structured reasoning traces (interpretability +44.0%), more faithfully expose their underlying decision process (faithfulness +18.8%), and offer informative confidence estimates (reliability +42.4%). These findings highlight an overlooked but important direction: reasoning models should be optimized not only for accuracy, but also for broader dimensions of trustworthiness. Our code is available at: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine

ReFIne: Un Marco para Modelos de Razonamiento a Gran Escala Confiables con Fiabilidad, Fidelidad e Interpretabilidad

ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability

Resumen

Support