ReFIne: Фреймворк для надежных моделей масштабного рассуждения с обеспечением надежности, достоверности и интерпретируемости
ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability
October 10, 2025
Авторы: Chung-En Sun, Ge Yan, Akshay Kulkarni, Tsui-Wei Weng
cs.AI
Аннотация
Последние достижения в области длинных цепочек рассуждений (CoT) в основном сосредоточены на точности ответов и эффективности использования токенов, упуская из виду аспекты, критически важные для доверия. Мы утверждаем, что пригодные для использования системы рассуждений должны быть надежными, что характеризуется тремя свойствами: интерпретируемостью, достоверностью и надежностью. Для достижения этой цели мы предлагаем ReFIne — новый фреймворк для обучения, который интегрирует контролируемое тонкое настройку с GRPO, чтобы побудить модели: (i) улучшить интерпретируемость за счет создания структурированных, помеченных трассировок с высокоуровневым планированием, которые легче воспринимать человеку; (ii) повысить достоверность, явно раскрывая решающую информацию, направляющую каждое решение, с последовательными перекрестными ссылками; и (iii) повысить надежность, предоставляя самооценки как обоснованности вывода, так и уверенности в окончательном ответе. Мы применяем ReFIne к моделям Qwen3 различных масштабов (1.7B/4B/8B) и оцениваем их на математических бенчмарках разной сложности. Наши экспериментальные результаты показывают, что модели ReFIne генерируют более четкие и лучше структурированные трассировки рассуждений (интерпретируемость +44.0%), более достоверно раскрывают свой процесс принятия решений (достоверность +18.8%) и предоставляют информативные оценки уверенности (надежность +42.4%). Эти результаты подчеркивают упущенное, но важное направление: модели рассуждений должны быть оптимизированы не только для точности, но и для более широких аспектов доверия. Наш код доступен по адресу:
https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
English
Recent advances in long chain-of-thought (CoT) reasoning have largely
prioritized answer accuracy and token efficiency, while overlooking aspects
critical to trustworthiness. We argue that usable reasoning systems must be
trustworthy, characterized by three properties: interpretability, faithfulness,
and reliability. To this end, we propose ReFIne, a new training framework that
integrates supervised fine-tuning with GRPO to encourage models to: (i) improve
interpretability by producing structured, tag-based traces with high-level
planning that are easier for humans to follow; (ii) enhance faithfulness by
explicitly disclosing the decisive information guiding each solution, with
consistent cross-section references; and (iii) promote reliability by providing
self-assessments of both the derivation's soundness and the confidence of the
final answer. We apply ReFIne to the Qwen3 models at multiple scales
(1.7B/4B/8B) and evaluate across mathematical benchmarks of varying difficulty.
Our experimental results show that ReFIne models generate clearer and
better-structured reasoning traces (interpretability +44.0%), more faithfully
expose their underlying decision process (faithfulness +18.8%), and offer
informative confidence estimates (reliability +42.4%). These findings highlight
an overlooked but important direction: reasoning models should be optimized not
only for accuracy, but also for broader dimensions of trustworthiness. Our code
is available at:
https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine