Raciocínio de Inconsistência Multimodal (MMIR): Um Novo Benchmark para Modelos de Raciocínio Multimodal
Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models
February 22, 2025
Autores: Qianqi Yan, Yue Fan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang
cs.AI
Resumo
Os modelos de linguagem multimodal de grande escala (MLLMs) existentes são predominantemente treinados e testados em entradas visuais-textuais consistentes, deixando em aberto a questão de se eles podem lidar com inconsistências em conteúdos do mundo real ricos em layout. Para preencher essa lacuna, propomos o benchmark de Raciocínio de Inconsistência Multimodal (MMIR) para avaliar a capacidade dos MLLMs de detectar e raciocinar sobre incompatibilidades semânticas em artefatos como páginas da web, slides de apresentação e pôsteres. O MMIR compreende 534 amostras desafiadoras, cada uma contendo erros sinteticamente injetados em cinco categorias que exigem raciocínio intensivo: Contradição Factual, Atribuição Incorreta de Identidade, Incompatibilidade Contextual, Discrepância Quantitativa e Incoerência Temporal/Espacial. Avaliamos seis MLLMs de ponta, mostrando que modelos com capacidades dedicadas de raciocínio multimodal, como o o1, superam substancialmente seus concorrentes, enquanto modelos de código aberto permanecem particularmente vulneráveis a erros de inconsistência. Análises detalhadas de erros mostram ainda que os modelos se destacam na detecção de inconsistências confinadas a uma única modalidade, particularmente em texto, mas lutam com conflitos multimodais e layouts complexos. Experimentos de sondagem revelam que o prompting de modalidade única, incluindo métodos como Chain-of-Thought (CoT) e Set-of-Mark (SoM), produz ganhos marginais, revelando um gargalo crítico no raciocínio multimodal. Nossas descobertas destacam a necessidade de avanços no raciocínio multimodal e apontam para futuras pesquisas sobre inconsistência multimodal.
English
Existing Multimodal Large Language Models (MLLMs) are predominantly trained
and tested on consistent visual-textual inputs, leaving open the question of
whether they can handle inconsistencies in real-world, layout-rich content. To
bridge this gap, we propose the Multimodal Inconsistency Reasoning (MMIR)
benchmark to assess MLLMs' ability to detect and reason about semantic
mismatches in artifacts such as webpages, presentation slides, and posters.
MMIR comprises 534 challenging samples, each containing synthetically injected
errors across five reasoning-heavy categories: Factual Contradiction, Identity
Misattribution, Contextual Mismatch, Quantitative Discrepancy, and
Temporal/Spatial Incoherence. We evaluate six state-of-the-art MLLMs, showing
that models with dedicated multimodal reasoning capabilities, such as o1,
substantially outperform their counterparts while open-source models remain
particularly vulnerable to inconsistency errors. Detailed error analyses
further show that models excel in detecting inconsistencies confined to a
single modality, particularly in text, but struggle with cross-modal conflicts
and complex layouts. Probing experiments reveal that single-modality prompting,
including Chain-of-Thought (CoT) and Set-of-Mark (SoM) methods, yields marginal
gains, revealing a key bottleneck in cross-modal reasoning. Our findings
highlight the need for advanced multimodal reasoning and point to future
research on multimodal inconsistency.Summary
AI-Generated Summary