ChatPaper.aiChatPaper

VERIFY : Un Benchmark d'Explication Visuelle et de Raisonnement pour l'Investigation de la Fidélité en Raisonnement Multimodal

VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity

March 14, 2025
Auteurs: Jing Bi, Junjia Guo, Susan Liang, Guangyu Sun, Luchuan Song, Yunlong Tang, Jinxi He, Jiarui Wu, Ali Vosoughi, Chen Chen, Chenliang Xu
cs.AI

Résumé

Le raisonnement visuel est au cœur de la cognition humaine, permettant aux individus d'interpréter et de comprendre de manière abstraite leur environnement. Bien que les modèles de langage multimodaux de grande envergure (MLLMs) récents aient démontré des performances impressionnantes dans les tâches linguistiques et visuo-linguistiques, les benchmarks existants mesurent principalement des compétences basées sur la reconnaissance et évaluent insuffisamment les véritables capacités de raisonnement visuel. Pour combler cette lacune critique, nous introduisons VERIFY, un benchmark explicitement conçu pour isoler et évaluer rigoureusement les capacités de raisonnement visuel des MLLMs de pointe. VERIFY oblige les modèles à raisonner principalement à partir d'informations visuelles, en fournissant un contexte textuel minimal pour réduire la dépendance à l'égard des connaissances spécifiques au domaine et des biais linguistiques. Chaque problème est accompagné d'un chemin de raisonnement annoté par des humains, ce qui en fait le premier à fournir une évaluation approfondie des processus de prise de décision des modèles. De plus, nous proposons de nouvelles métriques qui évaluent la fidélité du raisonnement visuel au-delà de la simple précision, mettant en évidence des déséquilibres critiques dans les modèles de raisonnement actuels. Notre benchmarking complet des MLLMs leaders révèle des limitations significatives, soulignant la nécessité d'une approche équilibrée et holistique à la fois de la perception et du raisonnement. Pour plus de teasers et de tests, visitez notre page de projet (https://verify-eqh.pages.dev/).
English
Visual reasoning is central to human cognition, enabling individuals to interpret and abstractly understand their environment. Although recent Multimodal Large Language Models (MLLMs) have demonstrated impressive performance across language and vision-language tasks, existing benchmarks primarily measure recognition-based skills and inadequately assess true visual reasoning capabilities. To bridge this critical gap, we introduce VERIFY, a benchmark explicitly designed to isolate and rigorously evaluate the visual reasoning capabilities of state-of-the-art MLLMs. VERIFY compels models to reason primarily from visual information, providing minimal textual context to reduce reliance on domain-specific knowledge and linguistic biases. Each problem is accompanied by a human-annotated reasoning path, making it the first to provide in-depth evaluation of model decision-making processes. Additionally, we propose novel metrics that assess visual reasoning fidelity beyond mere accuracy, highlighting critical imbalances in current model reasoning patterns. Our comprehensive benchmarking of leading MLLMs uncovers significant limitations, underscoring the need for a balanced and holistic approach to both perception and reasoning. For more teaser and testing, visit our project page (https://verify-eqh.pages.dev/).

Summary

AI-Generated Summary

PDF212March 20, 2025