ReFIne: Ein Framework für vertrauenswürdige große Reasoning-Modelle mit Zuverlässigkeit, Treue und Interpretierbarkeit
ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability
October 10, 2025
papers.authors: Chung-En Sun, Ge Yan, Akshay Kulkarni, Tsui-Wei Weng
cs.AI
papers.abstract
Jüngste Fortschritte im Bereich des langen Ketten-denken (Chain-of-Thought, CoT) haben sich weitgehend auf die Genauigkeit der Antworten und die Effizienz der Token-Nutzung konzentriert, während Aspekte, die für die Vertrauenswürdigkeit entscheidend sind, vernachlässigt wurden. Wir argumentieren, dass nutzbare Denksysteme vertrauenswürdig sein müssen, was durch drei Eigenschaften gekennzeichnet ist: Interpretierbarkeit, Treue und Zuverlässigkeit. Zu diesem Zweck schlagen wir ReFIne vor, ein neues Trainingsframework, das überwachtes Feintuning mit GRPO kombiniert, um Modelle dazu zu ermutigen: (i) die Interpretierbarkeit zu verbessern, indem strukturierte, tag-basierte Spuren mit hochrangiger Planung erzeugt werden, die für Menschen leichter nachzuvollziehen sind; (ii) die Treue zu erhöhen, indem die entscheidenden Informationen, die jede Lösung leiten, explizit offengelegt werden, mit konsistenten Querschnittsreferenzen; und (iii) die Zuverlässigkeit zu fördern, indem Selbstbewertungen sowohl der Schlüssigkeit der Ableitung als auch des Vertrauens in die endgültige Antwort bereitgestellt werden. Wir wenden ReFIne auf die Qwen3-Modelle in verschiedenen Größen (1,7B/4B/8B) an und evaluieren sie anhand mathematischer Benchmarks mit unterschiedlichem Schwierigkeitsgrad. Unsere experimentellen Ergebnisse zeigen, dass ReFIne-Modelle klarere und besser strukturierte Denkspuren erzeugen (Interpretierbarkeit +44,0%), ihren zugrunde liegenden Entscheidungsprozess treuer offenlegen (Treue +18,8%) und informative Vertrauensschätzungen bieten (Zuverlässigkeit +42,4%). Diese Ergebnisse unterstreichen eine übersehene, aber wichtige Richtung: Denkmodelle sollten nicht nur auf Genauigkeit, sondern auch auf breitere Dimensionen der Vertrauenswürdigkeit optimiert werden. Unser Code ist verfügbar unter:
https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
English
Recent advances in long chain-of-thought (CoT) reasoning have largely
prioritized answer accuracy and token efficiency, while overlooking aspects
critical to trustworthiness. We argue that usable reasoning systems must be
trustworthy, characterized by three properties: interpretability, faithfulness,
and reliability. To this end, we propose ReFIne, a new training framework that
integrates supervised fine-tuning with GRPO to encourage models to: (i) improve
interpretability by producing structured, tag-based traces with high-level
planning that are easier for humans to follow; (ii) enhance faithfulness by
explicitly disclosing the decisive information guiding each solution, with
consistent cross-section references; and (iii) promote reliability by providing
self-assessments of both the derivation's soundness and the confidence of the
final answer. We apply ReFIne to the Qwen3 models at multiple scales
(1.7B/4B/8B) and evaluate across mathematical benchmarks of varying difficulty.
Our experimental results show that ReFIne models generate clearer and
better-structured reasoning traces (interpretability +44.0%), more faithfully
expose their underlying decision process (faithfulness +18.8%), and offer
informative confidence estimates (reliability +42.4%). These findings highlight
an overlooked but important direction: reasoning models should be optimized not
only for accuracy, but also for broader dimensions of trustworthiness. Our code
is available at:
https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine