MR-Align: 대규모 추론 모델을 위한 메타 추론 기반 사실성 정렬
MR-Align: Meta-Reasoning Informed Factuality Alignment for Large Reasoning Models
October 27, 2025
저자: Xinming Wang, Jian Xu, Bin Yu, Sheng Lian, Hongzhu Yi, Yi Chen, Yingjian Zhu, Boran Wang, Hongming Yang, Han Hu, Xu-Yao Zhang, Cheng-Lin Liu
cs.AI
초록
대규모 추론 모델(LRMs)은 복잡한 추론에서 강력한 능력을 보이지만, 증거에 의존하는 사실적 질문에 대한 한계적 성능 향상은 제한적입니다. 우리는 이러한 한계가 부분적으로 '추론-답변 간극'에 기인함을 발견했는데, 이는 모델이 추론 과정 중에는 올바른 사실을 식별하지만 최종 응답에 이를 반영하지 못하여 사실적 정확도를 낮추는 현상입니다. 이러한 문제를 해결하기 위해 우리는 외부 검증 도구에 의존하지 않으면서 사실성을 향상시키는 메타-추론 기반 조정 프레임워크인 MR-ALIGN을 제안합니다. MR-ALIGN은 모델의 사고 과정을 따라 상태 전이 확률을 정량화하고, 원자적 사고 단계에서 유익한 추론 패턴을 강화하면서 결함 있는 패턴을 억제하는 전이 인식 암묵적 보상을 구성합니다. 이러한 재가중은 토큰 수준 신호를 확률 인식 세그먼트 점수로 변형하여 사실적 정확성에 더 부합하는 일관된 추론 궤적을 장려합니다. 4개의 사실적 질의응답 데이터셋과 1개의 장문 사실성 벤치마크에서 진행한 실험 평가 결과, MR-ALIGN이 오류 가능성을 줄이면서 정확도와 진실성을 지속적으로 향상시키는 것으로 나타났습니다. 이러한 결과는 출력 결과뿐만 아니라 추론 과정 자체를 조정하는 것이 LRMs의 사실성 향상에 핵심적임을 보여줍니다.
English
Large reasoning models (LRMs) show strong capabilities in complex reasoning,
yet their marginal gains on evidence-dependent factual questions are limited.
We find this limitation is partially attributable to a reasoning-answer hit
gap, where the model identifies the correct facts during reasoning but fails to
incorporate them into the final response, thereby reducing factual fidelity. To
address this issue, we propose MR-ALIGN, a Meta-Reasoning informed alignment
framework that enhances factuality without relying on external verifiers.
MR-ALIGN quantifies state transition probabilities along the model's thinking
process and constructs a transition-aware implicit reward that reinforces
beneficial reasoning patterns while suppressing defective ones at the atomic
thinking segments. This re-weighting reshapes token-level signals into
probability-aware segment scores, encouraging coherent reasoning trajectories
that are more conducive to factual correctness. Empirical evaluations across
four factual QA datasets and one long-form factuality benchmark show that
MR-ALIGN consistently improves accuracy and truthfulness while reducing
misleading reasoning. These results highlight that aligning the reasoning
process itself, rather than merely the outputs, is pivotal for advancing
factuality in LRMs.