検証可能な推論のためのマルチモーダル事実レベル帰属
Multimodal Fact-Level Attribution for Verifiable Reasoning
February 12, 2026
著者: David Wan, Han Wang, Ziyang Wang, Elias Stengel-Eskin, Hyunji Lee, Mohit Bansal
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)は、多段階の推論と長文生成を伴う実世界タスクにおいて、その信頼性を確保するために、モデル出力を多様な入力ソースに基づき接地させ、個々の事実主張を検証する必要性が高まっています。しかし、既存のマルチモーダル接地ベンチマークや評価手法は、単純化された観察ベースのシナリオや限られたモダリティに焦点を当てたものが多く、複雑なマルチモーダル推論における帰属関係の評価が不十分です。本研究では、直接観察を超えた推論を必要とする設定において、事実レベルのマルチモーダル帰属を評価するベンチマーク、MuRGAt(Multimodal Reasoning with Grounded Attribution)を提案します。映像、音声などの多様なモダリティに跨る入力に対し、MuRGAtはモデルが明示的な推論過程と正確な引用を含む回答を生成することを要求します。各引用は、モダリティと時間セグメントの両方を特定する必要があります。信頼性の高い評価を可能にするため、人間の判断と強く相関する自動評価フレームワークを導入します。人間による評価と自動スコアリングを用いたベンチマークテストにより、強力なMLLMであっても、正しい推論が行われている場合でも、しばしば誤った引用を生成する( hallucinate )ことが明らかになりました。さらに、重要なトレードオフが観察されました:推論の深さを増したり、構造化された接地を強化したりすることは、多くの場合、回答の正確性を低下させます。これは、内部的な推論と検証可能な帰属情報の提示との間に大きな隔たりがあることを示唆しています。
English
Multimodal large language models (MLLMs) are increasingly used for real-world tasks involving multi-step reasoning and long-form generation, where reliability requires grounding model outputs in heterogeneous input sources and verifying individual factual claims. However, existing multimodal grounding benchmarks and evaluation methods focus on simplified, observation-based scenarios or limited modalities and fail to assess attribution in complex multimodal reasoning. We introduce MuRGAt (Multimodal Reasoning with Grounded Attribution), a benchmark for evaluating fact-level multimodal attribution in settings that require reasoning beyond direct observation. Given inputs spanning video, audio, and other modalities, MuRGAt requires models to generate answers with explicit reasoning and precise citations, where each citation specifies both modality and temporal segments. To enable reliable assessment, we introduce an automatic evaluation framework that strongly correlates with human judgments. Benchmarking with human and automated scores reveals that even strong MLLMs frequently hallucinate citations despite correct reasoning. Moreover, we observe a key trade-off: increasing reasoning depth or enforcing structured grounding often degrades accuracy, highlighting a significant gap between internal reasoning and verifiable attribution.