검증 가능한 추론을 위한 다중모달 사실 수준 귀속
Multimodal Fact-Level Attribution for Verifiable Reasoning
February 12, 2026
저자: David Wan, Han Wang, Ziyang Wang, Elias Stengel-Eskin, Hyunji Lee, Mohit Bansal
cs.AI
초록
멀티모달 대규모 언어 모델(MLLM)은 다단계 추론과 장문 생성을 수반하는 실세계 과제에 점점 더 많이 활용되며, 이때 신뢰성은 이질적 입력 소스에 기반한 모델 출력의 근거 확보와 개별 사실 주장의 검증을 요구합니다. 그러나 기존의 멀티모달 근거 평가 기준과 평가 방법은 단순화된 관찰 기반 시나리오나 제한된 양식에 집중하여 복잡한 멀티모달 추론에서의 귀속 평가를 제대로 수행하지 못합니다. 본 연구에서는 직접 관찰을 넘어선 추론이 필요한 환경에서 사실 수준의 멀티모달 귀속을 평가하기 위한 벤치마크인 MuRGAt(근거 기반 귀속을 통한 멀티모달 추론)를 소개합니다. 비디오, 오디오 등 다양한 양식의 입력이 주어졌을 때, MuRGAt는 모델이 명시적 추론과 정확한 인용을 포함한 답변을 생성하도록 요구하며, 각 인용은 양식과 시간적 세그먼트를 모두 명시해야 합니다. 신뢰할 수 있는 평가를 위해 인간의 판단과 강한 상관관계를 보이는 자동 평가 프레임워크를 도입했습니다. 인간 및 자동화 점수를 통한 벤치마킹 결과, 강력한 MLLM조차도 정확한 추론에도 불구하고 빈번히 허구적 인용을 생성하는 것으로 나타났습니다. 더 나아가 중요한 절충점을 관찰했는데, 추론 깊이를 증가시키거나 구조화된 근거 확보를 강제할 경우 정확도가 종종 저하되어 내부 추론과 검증 가능한 귀속 간에 상당한 격차가 있음을 시사합니다.
English
Multimodal large language models (MLLMs) are increasingly used for real-world tasks involving multi-step reasoning and long-form generation, where reliability requires grounding model outputs in heterogeneous input sources and verifying individual factual claims. However, existing multimodal grounding benchmarks and evaluation methods focus on simplified, observation-based scenarios or limited modalities and fail to assess attribution in complex multimodal reasoning. We introduce MuRGAt (Multimodal Reasoning with Grounded Attribution), a benchmark for evaluating fact-level multimodal attribution in settings that require reasoning beyond direct observation. Given inputs spanning video, audio, and other modalities, MuRGAt requires models to generate answers with explicit reasoning and precise citations, where each citation specifies both modality and temporal segments. To enable reliable assessment, we introduce an automatic evaluation framework that strongly correlates with human judgments. Benchmarking with human and automated scores reveals that even strong MLLMs frequently hallucinate citations despite correct reasoning. Moreover, we observe a key trade-off: increasing reasoning depth or enforcing structured grounding often degrades accuracy, highlighting a significant gap between internal reasoning and verifiable attribution.