ChatPaper.aiChatPaper

Raisonnement sur l'Incohérence Multimodale (MMIR) : Un Nouveau Benchmark pour les Modèles de Raisonnement Multimodal

Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models

February 22, 2025
Auteurs: Qianqi Yan, Yue Fan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang
cs.AI

Résumé

Les modèles de langage multimodaux de grande envergure (MLLMs) existants sont principalement entraînés et testés sur des entrées visuelles-textuelles cohérentes, laissant ouverte la question de leur capacité à gérer les incohérences dans des contenus réels riches en mise en page. Pour combler cette lacune, nous proposons le benchmark de raisonnement sur les incohérences multimodales (MMIR) afin d'évaluer la capacité des MLLMs à détecter et à raisonner sur les discordances sémantiques dans des artefacts tels que les pages web, les diapositives de présentation et les affiches. MMIR comprend 534 échantillons complexes, chacun contenant des erreurs injectées de manière synthétique réparties dans cinq catégories exigeantes en raisonnement : contradiction factuelle, attribution erronée d'identité, discordance contextuelle, divergence quantitative et incohérence temporelle/spatiale. Nous évaluons six MLLMs de pointe, montrant que les modèles dotés de capacités dédiées au raisonnement multimodal, tels que o1, surpassent largement leurs homologues, tandis que les modèles open source restent particulièrement vulnérables aux erreurs d'incohérence. Des analyses détaillées des erreurs révèlent en outre que les modèles excellent dans la détection des incohérences limitées à une seule modalité, en particulier dans le texte, mais peinent à gérer les conflits intermodaux et les mises en page complexes. Des expériences de sondage montrent que l'incitation à une modalité unique, incluant les méthodes de chaîne de pensée (CoT) et d'ensemble de marques (SoM), apporte des gains marginaux, révélant un goulot d'étranglement majeur dans le raisonnement intermodal. Nos résultats soulignent la nécessité d'un raisonnement multimodal avancé et orientent les recherches futures sur les incohérences multimodales.
English
Existing Multimodal Large Language Models (MLLMs) are predominantly trained and tested on consistent visual-textual inputs, leaving open the question of whether they can handle inconsistencies in real-world, layout-rich content. To bridge this gap, we propose the Multimodal Inconsistency Reasoning (MMIR) benchmark to assess MLLMs' ability to detect and reason about semantic mismatches in artifacts such as webpages, presentation slides, and posters. MMIR comprises 534 challenging samples, each containing synthetically injected errors across five reasoning-heavy categories: Factual Contradiction, Identity Misattribution, Contextual Mismatch, Quantitative Discrepancy, and Temporal/Spatial Incoherence. We evaluate six state-of-the-art MLLMs, showing that models with dedicated multimodal reasoning capabilities, such as o1, substantially outperform their counterparts while open-source models remain particularly vulnerable to inconsistency errors. Detailed error analyses further show that models excel in detecting inconsistencies confined to a single modality, particularly in text, but struggle with cross-modal conflicts and complex layouts. Probing experiments reveal that single-modality prompting, including Chain-of-Thought (CoT) and Set-of-Mark (SoM) methods, yields marginal gains, revealing a key bottleneck in cross-modal reasoning. Our findings highlight the need for advanced multimodal reasoning and point to future research on multimodal inconsistency.

Summary

AI-Generated Summary

PDF182February 25, 2025