ReFIne : Un cadre pour des modèles de raisonnement à grande échelle fiables, avec fiabilité, fidélité et interprétabilité

papers.abstract

Les récents progrès dans le raisonnement à longue chaîne de pensée (CoT) ont largement privilégié la précision des réponses et l'efficacité des tokens, tout en négligeant des aspects critiques pour la fiabilité. Nous soutenons que les systèmes de raisonnement utilisables doivent être dignes de confiance, caractérisés par trois propriétés : l'interprétabilité, la fidélité et la fiabilité. À cette fin, nous proposons ReFIne, un nouveau cadre d'entraînement qui intègre un ajustement fin supervisé avec GRPO pour encourager les modèles à : (i) améliorer l'interprétabilité en produisant des traces structurées basées sur des étiquettes avec une planification de haut niveau, plus faciles à suivre pour les humains ; (ii) renforcer la fidélité en divulguant explicitement les informations décisives guidant chaque solution, avec des références transversales cohérentes ; et (iii) promouvoir la fiabilité en fournissant des auto-évaluations de la solidité de la dérivation et de la confiance dans la réponse finale. Nous appliquons ReFIne aux modèles Qwen3 à différentes échelles (1,7B/4B/8B) et évaluons sur des benchmarks mathématiques de difficulté variable. Nos résultats expérimentaux montrent que les modèles ReFIne génèrent des traces de raisonnement plus claires et mieux structurées (interprétabilité +44,0 %), exposent plus fidèlement leur processus décisionnel sous-jacent (fidélité +18,8 %) et fournissent des estimations de confiance informatives (fiabilité +42,4 %). Ces résultats mettent en lumière une direction importante mais négligée : les modèles de raisonnement devraient être optimisés non seulement pour la précision, mais aussi pour des dimensions plus larges de la fiabilité. Notre code est disponible à l'adresse suivante : https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine

English

Recent advances in long chain-of-thought (CoT) reasoning have largely prioritized answer accuracy and token efficiency, while overlooking aspects critical to trustworthiness. We argue that usable reasoning systems must be trustworthy, characterized by three properties: interpretability, faithfulness, and reliability. To this end, we propose ReFIne, a new training framework that integrates supervised fine-tuning with GRPO to encourage models to: (i) improve interpretability by producing structured, tag-based traces with high-level planning that are easier for humans to follow; (ii) enhance faithfulness by explicitly disclosing the decisive information guiding each solution, with consistent cross-section references; and (iii) promote reliability by providing self-assessments of both the derivation's soundness and the confidence of the final answer. We apply ReFIne to the Qwen3 models at multiple scales (1.7B/4B/8B) and evaluate across mathematical benchmarks of varying difficulty. Our experimental results show that ReFIne models generate clearer and better-structured reasoning traces (interpretability +44.0%), more faithfully expose their underlying decision process (faithfulness +18.8%), and offer informative confidence estimates (reliability +42.4%). These findings highlight an overlooked but important direction: reasoning models should be optimized not only for accuracy, but also for broader dimensions of trustworthiness. Our code is available at: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine

ReFIne : Un cadre pour des modèles de raisonnement à grande échelle fiables, avec fiabilité, fidélité et interprétabilité

ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability

papers.abstract

Support