ReFIne: Un Framework per Modelli di Ragionamento su Grande Scala Affidabili, con Affidabilità, Fedeltà e Interpretabilità
ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability
October 10, 2025
Autori: Chung-En Sun, Ge Yan, Akshay Kulkarni, Tsui-Wei Weng
cs.AI
Abstract
I recenti progressi nel ragionamento a catena di pensiero (CoT) hanno principalmente privilegiato l'accuratezza delle risposte e l'efficienza dei token, trascurando aspetti cruciali per l'affidabilità. Sosteniamo che i sistemi di ragionamento utilizzabili debbano essere affidabili, caratterizzati da tre proprietà: interpretabilità, fedeltà e affidabilità. A tal fine, proponiamo ReFIne, un nuovo framework di addestramento che integra il fine-tuning supervisionato con GRPO per incoraggiare i modelli a: (i) migliorare l'interpretabilità producendo tracce strutturate basate su tag con una pianificazione di alto livello che siano più facili da seguire per gli esseri umani; (ii) aumentare la fedeltà rivelando esplicitamente le informazioni decisive che guidano ogni soluzione, con riferimenti coerenti tra le sezioni; e (iii) promuovere l'affidabilità fornendo autovalutazioni sia della solidità della derivazione che della confidenza della risposta finale. Applichiamo ReFIne ai modelli Qwen3 su più scale (1.7B/4B/8B) e valutiamo su benchmark matematici di varia difficoltà. I nostri risultati sperimentali mostrano che i modelli ReFIne generano tracce di ragionamento più chiare e meglio strutturate (interpretabilità +44.0%), espongono più fedelmente il loro processo decisionale sottostante (fedeltà +18.8%) e offrono stime di confidenza informative (affidabilità +42.4%). Questi risultati evidenziano una direzione trascurata ma importante: i modelli di ragionamento dovrebbero essere ottimizzati non solo per l'accuratezza, ma anche per dimensioni più ampie di affidabilità. Il nostro codice è disponibile all'indirizzo:
https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
English
Recent advances in long chain-of-thought (CoT) reasoning have largely
prioritized answer accuracy and token efficiency, while overlooking aspects
critical to trustworthiness. We argue that usable reasoning systems must be
trustworthy, characterized by three properties: interpretability, faithfulness,
and reliability. To this end, we propose ReFIne, a new training framework that
integrates supervised fine-tuning with GRPO to encourage models to: (i) improve
interpretability by producing structured, tag-based traces with high-level
planning that are easier for humans to follow; (ii) enhance faithfulness by
explicitly disclosing the decisive information guiding each solution, with
consistent cross-section references; and (iii) promote reliability by providing
self-assessments of both the derivation's soundness and the confidence of the
final answer. We apply ReFIne to the Qwen3 models at multiple scales
(1.7B/4B/8B) and evaluate across mathematical benchmarks of varying difficulty.
Our experimental results show that ReFIne models generate clearer and
better-structured reasoning traces (interpretability +44.0%), more faithfully
expose their underlying decision process (faithfulness +18.8%), and offer
informative confidence estimates (reliability +42.4%). These findings highlight
an overlooked but important direction: reasoning models should be optimized not
only for accuracy, but also for broader dimensions of trustworthiness. Our code
is available at:
https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine