ReFIne : Un cadre pour des modèles de raisonnement à grande échelle fiables, avec fiabilité, fidélité et interprétabilité
ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability
October 10, 2025
papers.authors: Chung-En Sun, Ge Yan, Akshay Kulkarni, Tsui-Wei Weng
cs.AI
papers.abstract
Les récents progrès dans le raisonnement à longue chaîne de pensée (CoT) ont largement privilégié la précision des réponses et l'efficacité des tokens, tout en négligeant des aspects critiques pour la fiabilité. Nous soutenons que les systèmes de raisonnement utilisables doivent être dignes de confiance, caractérisés par trois propriétés : l'interprétabilité, la fidélité et la fiabilité. À cette fin, nous proposons ReFIne, un nouveau cadre d'entraînement qui intègre un ajustement fin supervisé avec GRPO pour encourager les modèles à : (i) améliorer l'interprétabilité en produisant des traces structurées basées sur des étiquettes avec une planification de haut niveau, plus faciles à suivre pour les humains ; (ii) renforcer la fidélité en divulguant explicitement les informations décisives guidant chaque solution, avec des références transversales cohérentes ; et (iii) promouvoir la fiabilité en fournissant des auto-évaluations de la solidité de la dérivation et de la confiance dans la réponse finale. Nous appliquons ReFIne aux modèles Qwen3 à différentes échelles (1,7B/4B/8B) et évaluons sur des benchmarks mathématiques de difficulté variable. Nos résultats expérimentaux montrent que les modèles ReFIne génèrent des traces de raisonnement plus claires et mieux structurées (interprétabilité +44,0 %), exposent plus fidèlement leur processus décisionnel sous-jacent (fidélité +18,8 %) et fournissent des estimations de confiance informatives (fiabilité +42,4 %). Ces résultats mettent en lumière une direction importante mais négligée : les modèles de raisonnement devraient être optimisés non seulement pour la précision, mais aussi pour des dimensions plus larges de la fiabilité. Notre code est disponible à l'adresse suivante : https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
English
Recent advances in long chain-of-thought (CoT) reasoning have largely
prioritized answer accuracy and token efficiency, while overlooking aspects
critical to trustworthiness. We argue that usable reasoning systems must be
trustworthy, characterized by three properties: interpretability, faithfulness,
and reliability. To this end, we propose ReFIne, a new training framework that
integrates supervised fine-tuning with GRPO to encourage models to: (i) improve
interpretability by producing structured, tag-based traces with high-level
planning that are easier for humans to follow; (ii) enhance faithfulness by
explicitly disclosing the decisive information guiding each solution, with
consistent cross-section references; and (iii) promote reliability by providing
self-assessments of both the derivation's soundness and the confidence of the
final answer. We apply ReFIne to the Qwen3 models at multiple scales
(1.7B/4B/8B) and evaluate across mathematical benchmarks of varying difficulty.
Our experimental results show that ReFIne models generate clearer and
better-structured reasoning traces (interpretability +44.0%), more faithfully
expose their underlying decision process (faithfulness +18.8%), and offer
informative confidence estimates (reliability +42.4%). These findings highlight
an overlooked but important direction: reasoning models should be optimized not
only for accuracy, but also for broader dimensions of trustworthiness. Our code
is available at:
https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine