ReFIne: Een raamwerk voor betrouwbare grote redeneermodellen met betrouwbaarheid, trouw en interpreteerbaarheid
ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability
October 10, 2025
Auteurs: Chung-En Sun, Ge Yan, Akshay Kulkarni, Tsui-Wei Weng
cs.AI
Samenvatting
Recente vooruitgang in lange ketens van gedachtegang (CoT) heeft grotendeels prioriteit gegeven aan antwoordnauwkeurigheid en token-efficiëntie, terwijl aspecten die cruciaal zijn voor betrouwbaarheid over het hoofd zijn gezien. Wij stellen dat bruikbare redeneersystemen betrouwbaar moeten zijn, gekenmerkt door drie eigenschappen: interpreteerbaarheid, trouw en betrouwbaarheid. Hiertoe stellen we ReFIne voor, een nieuw trainingsframework dat supervised fine-tuning integreert met GRPO om modellen aan te moedigen om: (i) interpreteerbaarheid te verbeteren door gestructureerde, op tags gebaseerde sporen te produceren met hoogwaardige planning die gemakkelijker te volgen zijn voor mensen; (ii) trouw te vergroten door expliciet de beslissende informatie die elke oplossing leidt, bloot te leggen, met consistente kruisverwijzingen; en (iii) betrouwbaarheid te bevorderen door zelfevaluaties te bieden van zowel de geldigheid van de afleiding als het vertrouwen in het uiteindelijke antwoord. We passen ReFIne toe op de Qwen3-modellen op meerdere schalen (1.7B/4B/8B) en evalueren deze over wiskundige benchmarks van verschillende moeilijkheidsgraden. Onze experimentele resultaten tonen aan dat ReFIne-modellen duidelijkere en beter gestructureerde redeneersporen genereren (interpreteerbaarheid +44,0%), hun onderliggende beslissingsproces trouwer blootleggen (trouw +18,8%) en informatieve vertrouwensschattingen bieden (betrouwbaarheid +42,4%). Deze bevindingen benadrukken een over het hoofd gezien maar belangrijk richting: redeneermodellen moeten niet alleen geoptimaliseerd worden voor nauwkeurigheid, maar ook voor bredere dimensies van betrouwbaarheid. Onze code is beschikbaar op:
https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
English
Recent advances in long chain-of-thought (CoT) reasoning have largely
prioritized answer accuracy and token efficiency, while overlooking aspects
critical to trustworthiness. We argue that usable reasoning systems must be
trustworthy, characterized by three properties: interpretability, faithfulness,
and reliability. To this end, we propose ReFIne, a new training framework that
integrates supervised fine-tuning with GRPO to encourage models to: (i) improve
interpretability by producing structured, tag-based traces with high-level
planning that are easier for humans to follow; (ii) enhance faithfulness by
explicitly disclosing the decisive information guiding each solution, with
consistent cross-section references; and (iii) promote reliability by providing
self-assessments of both the derivation's soundness and the confidence of the
final answer. We apply ReFIne to the Qwen3 models at multiple scales
(1.7B/4B/8B) and evaluate across mathematical benchmarks of varying difficulty.
Our experimental results show that ReFIne models generate clearer and
better-structured reasoning traces (interpretability +44.0%), more faithfully
expose their underlying decision process (faithfulness +18.8%), and offer
informative confidence estimates (reliability +42.4%). These findings highlight
an overlooked but important direction: reasoning models should be optimized not
only for accuracy, but also for broader dimensions of trustworthiness. Our code
is available at:
https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine