ChatPaper.aiChatPaper

MR-Align:大規模推論モデルのためのメタ推論情報に基づく事実性アライメント

MR-Align: Meta-Reasoning Informed Factuality Alignment for Large Reasoning Models

October 27, 2025
著者: Xinming Wang, Jian Xu, Bin Yu, Sheng Lian, Hongzhu Yi, Yi Chen, Yingjian Zhu, Boran Wang, Hongming Yang, Han Hu, Xu-Yao Zhang, Cheng-Lin Liu
cs.AI

要旨

大規模推論モデル(LRM)は複雑な推論において強力な能力を示すが、証拠に依存する事実質問における限界的な改善は限られている。この制限は部分的に「推論-回答ヒット格差」に起因することがわかった。これはモデルが推論中に正しい事実を特定しながらも、それを最終回答に反映できず、結果として事実忠実性が低下する現象である。この問題を解決するため、外部検証器に依存せずに事実性を向上させるメタ推論に基づくアライメントフレームワーク「MR-ALIGN」を提案する。MR-ALIGNはモデルの思考プロセスに沿った状態遷移確率を定量化し、原子思考セグメント単位で有益な推論パターンを強化し欠陥のあるパターンを抑制する、遷移を考慮した暗黙的報酬を構築する。この再重み付けにより、トークンレベルの信号が確率を考慮したセグメントスコアに変換され、事実的正確さにつながる首尾一貫した推論軌道が促進される。4つの事実QAデータセットと1つの長文事実性ベンチマークによる実証評価では、MR-ALIGNが精度と真実性を一貫して向上させ、誤解を招く推論を減少させることを示した。これらの結果は、単なる出力ではなく推論プロセスそのものを調整することが、LRMの事実性向上において極めて重要であることを明らかにしている。
English
Large reasoning models (LRMs) show strong capabilities in complex reasoning, yet their marginal gains on evidence-dependent factual questions are limited. We find this limitation is partially attributable to a reasoning-answer hit gap, where the model identifies the correct facts during reasoning but fails to incorporate them into the final response, thereby reducing factual fidelity. To address this issue, we propose MR-ALIGN, a Meta-Reasoning informed alignment framework that enhances factuality without relying on external verifiers. MR-ALIGN quantifies state transition probabilities along the model's thinking process and constructs a transition-aware implicit reward that reinforces beneficial reasoning patterns while suppressing defective ones at the atomic thinking segments. This re-weighting reshapes token-level signals into probability-aware segment scores, encouraging coherent reasoning trajectories that are more conducive to factual correctness. Empirical evaluations across four factual QA datasets and one long-form factuality benchmark show that MR-ALIGN consistently improves accuracy and truthfulness while reducing misleading reasoning. These results highlight that aligning the reasoning process itself, rather than merely the outputs, is pivotal for advancing factuality in LRMs.
PDF313January 19, 2026