ChatPaper.aiChatPaper

Attribution multimodale des faits pour un raisonnement vérifiable

Multimodal Fact-Level Attribution for Verifiable Reasoning

February 12, 2026
papers.authors: David Wan, Han Wang, Ziyang Wang, Elias Stengel-Eskin, Hyunji Lee, Mohit Bansal
cs.AI

papers.abstract

Les modèles de langage multimodaux (MLLM) sont de plus en plus utilisés pour des tâches réelles impliquant un raisonnement à plusieurs étapes et une génération de texte long, où la fiabilité nécessite d'ancrer les sorties du modèle dans des sources d'entrée hétérogènes et de vérifier les affirmations factuelles individuelles. Cependant, les benchmarks d'ancrage multimodal et les méthodes d'évaluation existants se concentrent sur des scénarios simplifiés, basés sur l'observation, ou sur des modalités limitées, et ne parviennent pas à évaluer l'attribution dans le raisonnement multimodal complexe. Nous présentons MuRGAt (Multimodal Reasoning with Grounded Attribution), un benchmark pour évaluer l'attribution multimodale au niveau factuel dans des contextes nécessitant un raisonnement allant au-delà de l'observation directe. Étant donné des entrées couvrant la vidéo, l'audio et d'autres modalités, MuRGAt exige que les modèles génèrent des réponses avec un raisonnement explicite et des citations précises, où chaque citation spécifie à la fois la modalité et les segments temporels. Pour permettre une évaluation fiable, nous introduisons un cadre d'évaluation automatique qui corrèle fortement avec les jugements humains. Le benchmarking avec des scores humains et automatisés révèle que même les MLLM performants hallucinent fréquemment des citations malgré un raisonnement correct. De plus, nous observons un compromis clé : augmenter la profondeur du raisonnement ou imposer un ancrage structuré dégrade souvent la précision, soulignant un écart significatif entre le raisonnement interne et l'attribution vérifiable.
English
Multimodal large language models (MLLMs) are increasingly used for real-world tasks involving multi-step reasoning and long-form generation, where reliability requires grounding model outputs in heterogeneous input sources and verifying individual factual claims. However, existing multimodal grounding benchmarks and evaluation methods focus on simplified, observation-based scenarios or limited modalities and fail to assess attribution in complex multimodal reasoning. We introduce MuRGAt (Multimodal Reasoning with Grounded Attribution), a benchmark for evaluating fact-level multimodal attribution in settings that require reasoning beyond direct observation. Given inputs spanning video, audio, and other modalities, MuRGAt requires models to generate answers with explicit reasoning and precise citations, where each citation specifies both modality and temporal segments. To enable reliable assessment, we introduce an automatic evaluation framework that strongly correlates with human judgments. Benchmarking with human and automated scores reveals that even strong MLLMs frequently hallucinate citations despite correct reasoning. Moreover, we observe a key trade-off: increasing reasoning depth or enforcing structured grounding often degrades accuracy, highlighting a significant gap between internal reasoning and verifiable attribution.
PDF31February 14, 2026