Atribuição de Factos Multimodais para Raciocínio Verificável
Multimodal Fact-Level Attribution for Verifiable Reasoning
February 12, 2026
Autores: David Wan, Han Wang, Ziyang Wang, Elias Stengel-Eskin, Hyunji Lee, Mohit Bansal
cs.AI
Resumo
Os modelos de linguagem grandes multimodais (MLLMs) são cada vez mais utilizados em tarefas do mundo real que envolvem raciocínio multi-etapas e geração de texto longo, onde a confiabilidade exige que as saídas do modelo sejam fundamentadas em fontes de entrada heterogêneas e que afirmações factuais individuais sejam verificadas. No entanto, os benchmarks de fundamentação multimodal e os métodos de avaliação existentes concentram-se em cenários simplificados baseados em observação ou em modalidades limitadas, falhando em avaliar a atribuição no raciocínio multimodal complexo. Apresentamos o MuRGAt (Raciocínio Multimodal com Atribuição Fundamentada), um benchmark para avaliar a atribuição multimodal a nível factual em contextos que exigem raciocínio para além da observação direta. Dadas entradas que abrangem vídeo, áudio e outras modalidades, o MuRGAt exige que os modelos gerem respostas com raciocínio explícito e citações precisas, onde cada citação especifica tanto a modalidade quanto os segmentos temporais. Para permitir uma avaliação confiável, introduzimos um framework de avaliação automática que se correlaciona fortemente com os julgamentos humanos. A avaliação comparativa com pontuações humanas e automatizadas revela que mesmo MLLMs robustos frequentemente alucinam citações apesar de um raciocínio correto. Além disso, observamos um trade-off fundamental: aumentar a profundidade do raciocínio ou impor uma fundamentação estruturada frequentemente degrada a precisão, destacando uma lacuna significativa entre o raciocínio interno e a atribuição verificável.
English
Multimodal large language models (MLLMs) are increasingly used for real-world tasks involving multi-step reasoning and long-form generation, where reliability requires grounding model outputs in heterogeneous input sources and verifying individual factual claims. However, existing multimodal grounding benchmarks and evaluation methods focus on simplified, observation-based scenarios or limited modalities and fail to assess attribution in complex multimodal reasoning. We introduce MuRGAt (Multimodal Reasoning with Grounded Attribution), a benchmark for evaluating fact-level multimodal attribution in settings that require reasoning beyond direct observation. Given inputs spanning video, audio, and other modalities, MuRGAt requires models to generate answers with explicit reasoning and precise citations, where each citation specifies both modality and temporal segments. To enable reliable assessment, we introduce an automatic evaluation framework that strongly correlates with human judgments. Benchmarking with human and automated scores reveals that even strong MLLMs frequently hallucinate citations despite correct reasoning. Moreover, we observe a key trade-off: increasing reasoning depth or enforcing structured grounding often degrades accuracy, highlighting a significant gap between internal reasoning and verifiable attribution.