ChatPaper.aiChatPaper

ReFIne:信頼性、忠実性、解釈可能性を備えた大規模推論モデルのための信頼性フレームワーク

ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability

October 10, 2025
著者: Chung-En Sun, Ge Yan, Akshay Kulkarni, Tsui-Wei Weng
cs.AI

要旨

長い連鎖思考(CoT)推論における最近の進展は、主に回答精度とトークン効率を優先しており、信頼性に不可欠な側面を見落としてきた。我々は、実用的な推論システムは信頼できるものでなければならないと主張し、それを解釈可能性、忠実性、信頼性という3つの特性で特徴づける。この目的のために、我々はReFIneという新しいトレーニングフレームワークを提案する。このフレームワークは、教師ありファインチューニングとGRPOを統合し、モデルに以下のことを促す:(i) 構造化されたタグベースのトレースと高レベルの計画を生成することで、人間が追いやすい解釈可能性を向上させる;(ii) 各解決策を導く決定的な情報を明示的に開示し、一貫した断面参照を行うことで忠実性を高める;(iii) 導出の健全性と最終回答の信頼度の両方について自己評価を提供することで信頼性を促進する。我々はReFIneをQwen3モデル(1.7B/4B/8B)に適用し、難易度の異なる数学的ベンチマークで評価を行った。実験結果は、ReFIneモデルがより明確で構造化された推論トレースを生成し(解釈可能性 +44.0%)、基盤となる意思決定プロセスをより忠実に開示し(忠実性 +18.8%)、有益な信頼度推定を提供する(信頼性 +42.4%)ことを示している。これらの発見は、推論モデルが精度だけでなく、信頼性のより広範な次元についても最適化されるべきであるという、見過ごされていたが重要な方向性を強調している。我々のコードは以下で公開されている: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
English
Recent advances in long chain-of-thought (CoT) reasoning have largely prioritized answer accuracy and token efficiency, while overlooking aspects critical to trustworthiness. We argue that usable reasoning systems must be trustworthy, characterized by three properties: interpretability, faithfulness, and reliability. To this end, we propose ReFIne, a new training framework that integrates supervised fine-tuning with GRPO to encourage models to: (i) improve interpretability by producing structured, tag-based traces with high-level planning that are easier for humans to follow; (ii) enhance faithfulness by explicitly disclosing the decisive information guiding each solution, with consistent cross-section references; and (iii) promote reliability by providing self-assessments of both the derivation's soundness and the confidence of the final answer. We apply ReFIne to the Qwen3 models at multiple scales (1.7B/4B/8B) and evaluate across mathematical benchmarks of varying difficulty. Our experimental results show that ReFIne models generate clearer and better-structured reasoning traces (interpretability +44.0%), more faithfully expose their underlying decision process (faithfulness +18.8%), and offer informative confidence estimates (reliability +42.4%). These findings highlight an overlooked but important direction: reasoning models should be optimized not only for accuracy, but also for broader dimensions of trustworthiness. Our code is available at: https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
PDF12October 15, 2025