Raciocínio de Inconsistência Multimodal (MMIR): Um Novo Benchmark para Modelos de Raciocínio Multimodal

Resumo

Os modelos de linguagem multimodal de grande escala (MLLMs) existentes são predominantemente treinados e testados em entradas visuais-textuais consistentes, deixando em aberto a questão de se eles podem lidar com inconsistências em conteúdos do mundo real ricos em layout. Para preencher essa lacuna, propomos o benchmark de Raciocínio de Inconsistência Multimodal (MMIR) para avaliar a capacidade dos MLLMs de detectar e raciocinar sobre incompatibilidades semânticas em artefatos como páginas da web, slides de apresentação e pôsteres. O MMIR compreende 534 amostras desafiadoras, cada uma contendo erros sinteticamente injetados em cinco categorias que exigem raciocínio intensivo: Contradição Factual, Atribuição Incorreta de Identidade, Incompatibilidade Contextual, Discrepância Quantitativa e Incoerência Temporal/Espacial. Avaliamos seis MLLMs de ponta, mostrando que modelos com capacidades dedicadas de raciocínio multimodal, como o o1, superam substancialmente seus concorrentes, enquanto modelos de código aberto permanecem particularmente vulneráveis a erros de inconsistência. Análises detalhadas de erros mostram ainda que os modelos se destacam na detecção de inconsistências confinadas a uma única modalidade, particularmente em texto, mas lutam com conflitos multimodais e layouts complexos. Experimentos de sondagem revelam que o prompting de modalidade única, incluindo métodos como Chain-of-Thought (CoT) e Set-of-Mark (SoM), produz ganhos marginais, revelando um gargalo crítico no raciocínio multimodal. Nossas descobertas destacam a necessidade de avanços no raciocínio multimodal e apontam para futuras pesquisas sobre inconsistência multimodal.

English

Existing Multimodal Large Language Models (MLLMs) are predominantly trained and tested on consistent visual-textual inputs, leaving open the question of whether they can handle inconsistencies in real-world, layout-rich content. To bridge this gap, we propose the Multimodal Inconsistency Reasoning (MMIR) benchmark to assess MLLMs' ability to detect and reason about semantic mismatches in artifacts such as webpages, presentation slides, and posters. MMIR comprises 534 challenging samples, each containing synthetically injected errors across five reasoning-heavy categories: Factual Contradiction, Identity Misattribution, Contextual Mismatch, Quantitative Discrepancy, and Temporal/Spatial Incoherence. We evaluate six state-of-the-art MLLMs, showing that models with dedicated multimodal reasoning capabilities, such as o1, substantially outperform their counterparts while open-source models remain particularly vulnerable to inconsistency errors. Detailed error analyses further show that models excel in detecting inconsistencies confined to a single modality, particularly in text, but struggle with cross-modal conflicts and complex layouts. Probing experiments reveal that single-modality prompting, including Chain-of-Thought (CoT) and Set-of-Mark (SoM) methods, yields marginal gains, revealing a key bottleneck in cross-modal reasoning. Our findings highlight the need for advanced multimodal reasoning and point to future research on multimodal inconsistency.

Raciocínio de Inconsistência Multimodal (MMIR): Um Novo Benchmark para Modelos de Raciocínio Multimodal

Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models

Resumo

Support