ReFIne: Um Framework para Modelos de Raciocínio em Grande Escala Confiáveis com Confiabilidade, Fidelidade e Interpretabilidade
ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability
October 10, 2025
Autores: Chung-En Sun, Ge Yan, Akshay Kulkarni, Tsui-Wei Weng
cs.AI
Resumo
Os avanços recentes no raciocínio de cadeia longa de pensamento (CoT) têm priorizado amplamente a precisão das respostas e a eficiência de tokens, enquanto negligenciam aspectos críticos para a confiabilidade. Argumentamos que sistemas de raciocínio utilizáveis devem ser confiáveis, caracterizados por três propriedades: interpretabilidade, fidelidade e confiabilidade. Para isso, propomos o ReFIne, um novo framework de treinamento que integra ajuste fino supervisionado com GRPO para incentivar os modelos a: (i) melhorar a interpretabilidade ao produzir traços estruturados baseados em tags com planejamento de alto nível que sejam mais fáceis de serem seguidos por humanos; (ii) aprimorar a fidelidade ao divulgar explicitamente as informações decisivas que orientam cada solução, com referências consistentes entre seções; e (iii) promover a confiabilidade ao fornecer autoavaliações tanto da solidez da derivação quanto da confiança da resposta final. Aplicamos o ReFIne aos modelos Qwen3 em múltiplas escalas (1,7B/4B/8B) e avaliamos em benchmarks matemáticos de dificuldade variada. Nossos resultados experimentais mostram que os modelos ReFIne geram traços de raciocínio mais claros e melhor estruturados (interpretabilidade +44,0%), expõem de forma mais fiel seu processo de decisão subjacente (fidelidade +18,8%) e oferecem estimativas de confiança informativas (confiabilidade +42,4%). Esses achados destacam uma direção importante, mas negligenciada: modelos de raciocínio devem ser otimizados não apenas para precisão, mas também para dimensões mais amplas de confiabilidade. Nosso código está disponível em: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
English
Recent advances in long chain-of-thought (CoT) reasoning have largely
prioritized answer accuracy and token efficiency, while overlooking aspects
critical to trustworthiness. We argue that usable reasoning systems must be
trustworthy, characterized by three properties: interpretability, faithfulness,
and reliability. To this end, we propose ReFIne, a new training framework that
integrates supervised fine-tuning with GRPO to encourage models to: (i) improve
interpretability by producing structured, tag-based traces with high-level
planning that are easier for humans to follow; (ii) enhance faithfulness by
explicitly disclosing the decisive information guiding each solution, with
consistent cross-section references; and (iii) promote reliability by providing
self-assessments of both the derivation's soundness and the confidence of the
final answer. We apply ReFIne to the Qwen3 models at multiple scales
(1.7B/4B/8B) and evaluate across mathematical benchmarks of varying difficulty.
Our experimental results show that ReFIne models generate clearer and
better-structured reasoning traces (interpretability +44.0%), more faithfully
expose their underlying decision process (faithfulness +18.8%), and offer
informative confidence estimates (reliability +42.4%). These findings highlight
an overlooked but important direction: reasoning models should be optimized not
only for accuracy, but also for broader dimensions of trustworthiness. Our code
is available at:
https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine