Atribución Multimodal a Nivel de Hechos para el Razonamiento Verificable
Multimodal Fact-Level Attribution for Verifiable Reasoning
February 12, 2026
Autores: David Wan, Han Wang, Ziyang Wang, Elias Stengel-Eskin, Hyunji Lee, Mohit Bansal
cs.AI
Resumen
Los modelos lingüísticos grandes multimodales (MLLMs) se utilizan cada vez más para tareas del mundo real que implican razonamiento de múltiples pasos y generación de texto extenso, donde la fiabilidad requiere fundamentar las salidas del modelo en fuentes de entrada heterogéneas y verificar afirmaciones factuales individuales. Sin embargo, los puntos de referencia y métodos de evaluación de fundamentación multimodal existentes se centran en escenarios simplificados basados en la observación o en modalidades limitadas, y no logran evaluar la atribución en el razonamiento multimodal complejo. Presentamos MuRGAt (Razonamiento Multimodal con Atribución Fundamentada), un punto de referencia para evaluar la atribución multimodal a nivel factual en entornos que requieren razonamiento más allá de la observación directa. Dadas entradas que abarcan video, audio y otras modalidades, MuRGAt exige a los modelos que generen respuestas con razonamiento explícito y citas precisas, donde cada cita especifica tanto la modalidad como los segmentos temporales. Para permitir una evaluación fiable, introducimos un marco de evaluación automática que se correlaciona fuertemente con los juicios humanos. La evaluación comparativa con puntuaciones humanas y automatizadas revela que incluso los MLLMs potentes frecuentemente alucinan citas a pesar de un razonamiento correcto. Además, observamos un dilema clave: aumentar la profundidad del razonamiento o imponer una fundamentación estructurada a menudo degrada la precisión, destacando una brecha significativa entre el razonamiento interno y la atribución verificable.
English
Multimodal large language models (MLLMs) are increasingly used for real-world tasks involving multi-step reasoning and long-form generation, where reliability requires grounding model outputs in heterogeneous input sources and verifying individual factual claims. However, existing multimodal grounding benchmarks and evaluation methods focus on simplified, observation-based scenarios or limited modalities and fail to assess attribution in complex multimodal reasoning. We introduce MuRGAt (Multimodal Reasoning with Grounded Attribution), a benchmark for evaluating fact-level multimodal attribution in settings that require reasoning beyond direct observation. Given inputs spanning video, audio, and other modalities, MuRGAt requires models to generate answers with explicit reasoning and precise citations, where each citation specifies both modality and temporal segments. To enable reliable assessment, we introduce an automatic evaluation framework that strongly correlates with human judgments. Benchmarking with human and automated scores reveals that even strong MLLMs frequently hallucinate citations despite correct reasoning. Moreover, we observe a key trade-off: increasing reasoning depth or enforcing structured grounding often degrades accuracy, highlighting a significant gap between internal reasoning and verifiable attribution.