ChatPaper.aiChatPaper

ReFIne: 신뢰성, 충실성, 해석 가능성을 갖춘 신뢰할 수 있는 대규모 추론 모델 프레임워크

ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability

October 10, 2025
저자: Chung-En Sun, Ge Yan, Akshay Kulkarni, Tsui-Wei Weng
cs.AI

초록

최근 긴 사고 사슬(CoT) 추론 분야의 발전은 주로 답변의 정확성과 토큰 효율성을 우선시하면서, 신뢰성에 있어 중요한 측면들을 간과해 왔습니다. 우리는 사용 가능한 추론 시스템이 신뢰할 수 있어야 하며, 이는 해석 가능성, 충실성, 신뢰성이라는 세 가지 속성으로 특징지어져야 한다고 주장합니다. 이를 위해 우리는 GRPO와 지도 미세 조정을 통합한 새로운 훈련 프레임워크인 ReFIne을 제안합니다. ReFIne은 모델이 다음을 수행하도록 장려합니다: (i) 인간이 따라가기 쉬운 구조화된 태그 기반 추적과 고수준 계획을 생성함으로써 해석 가능성을 개선하고, (ii) 각 해결책을 이끄는 결정적 정보를 명시적으로 공개하고 일관된 교차 참조를 제공함으로써 충실성을 강화하며, (iii) 추론의 타당성과 최종 답변의 신뢰도에 대한 자체 평가를 제공함으로써 신뢰성을 촉진합니다. 우리는 ReFIne을 다양한 규모(1.7B/4B/8B)의 Qwen3 모델에 적용하고, 다양한 난이도의 수학 벤치마크에서 평가했습니다. 실험 결과, ReFIne 모델은 더 명확하고 잘 구조화된 추적을 생성하며(해석 가능성 +44.0%), 기본 의사 결정 과정을 더 충실하게 드러내고(충실성 +18.8%), 유익한 신뢰도 추정치를 제공합니다(신뢰성 +42.4%). 이러한 결과는 간과되었지만 중요한 방향을 강조합니다: 추론 모델은 정확성뿐만 아니라 신뢰성의 더 넓은 차원에 대해서도 최적화되어야 합니다. 우리의 코드는 다음에서 확인할 수 있습니다: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
English
Recent advances in long chain-of-thought (CoT) reasoning have largely prioritized answer accuracy and token efficiency, while overlooking aspects critical to trustworthiness. We argue that usable reasoning systems must be trustworthy, characterized by three properties: interpretability, faithfulness, and reliability. To this end, we propose ReFIne, a new training framework that integrates supervised fine-tuning with GRPO to encourage models to: (i) improve interpretability by producing structured, tag-based traces with high-level planning that are easier for humans to follow; (ii) enhance faithfulness by explicitly disclosing the decisive information guiding each solution, with consistent cross-section references; and (iii) promote reliability by providing self-assessments of both the derivation's soundness and the confidence of the final answer. We apply ReFIne to the Qwen3 models at multiple scales (1.7B/4B/8B) and evaluate across mathematical benchmarks of varying difficulty. Our experimental results show that ReFIne models generate clearer and better-structured reasoning traces (interpretability +44.0%), more faithfully expose their underlying decision process (faithfulness +18.8%), and offer informative confidence estimates (reliability +42.4%). These findings highlight an overlooked but important direction: reasoning models should be optimized not only for accuracy, but also for broader dimensions of trustworthiness. Our code is available at: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
PDF12October 15, 2025