ChatPaper.aiChatPaper

VERIFY: Ein Benchmark für visuelle Erklärungen und Schlussfolgerungen zur Untersuchung der Multimodalen Schlussfolgerungstreue

VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity

March 14, 2025
Autoren: Jing Bi, Junjia Guo, Susan Liang, Guangyu Sun, Luchuan Song, Yunlong Tang, Jinxi He, Jiarui Wu, Ali Vosoughi, Chen Chen, Chenliang Xu
cs.AI

Zusammenfassung

Visuelles Denken ist zentral für die menschliche Kognition und ermöglicht es Individuen, ihre Umgebung zu interpretieren und abstrakt zu verstehen. Obwohl neuere Multimodale Große Sprachmodelle (MLLMs) beeindruckende Leistungen in sprachlichen und visuell-sprachlichen Aufgaben gezeigt haben, messen bestehende Benchmarks hauptsächlich erkennungsbasierte Fähigkeiten und bewerten echte visuelle Denkfähigkeiten unzureichend. Um diese kritische Lücke zu schließen, führen wir VERIFY ein, einen Benchmark, der explizit entwickelt wurde, um die visuellen Denkfähigkeiten modernster MLLMs zu isolieren und rigoros zu bewerten. VERIFY zwingt Modelle, sich hauptsächlich auf visuelle Informationen zu stützen, indem nur minimaler textueller Kontext bereitgestellt wird, um die Abhängigkeit von domänenspezifischem Wissen und sprachlichen Verzerrungen zu reduzieren. Jede Aufgabe wird von einem menschlich annotierten Denkpfad begleitet, was VERIFY zum ersten Benchmark macht, der eine detaillierte Bewertung der Entscheidungsprozesse von Modellen ermöglicht. Zusätzlich schlagen wir neue Metriken vor, die die Treue des visuellen Denkens über die bloße Genauigkeit hinaus bewerten und kritische Ungleichgewichte in den aktuellen Denkmustern der Modelle aufzeigen. Unsere umfassende Bewertung führender MLLMs deckt erhebliche Einschränkungen auf und unterstreicht die Notwendigkeit eines ausgewogenen und ganzheitlichen Ansatzes sowohl für die Wahrnehmung als auch für das Denken. Für weitere Vorschauen und Tests besuchen Sie unsere Projektseite (https://verify-eqh.pages.dev/).
English
Visual reasoning is central to human cognition, enabling individuals to interpret and abstractly understand their environment. Although recent Multimodal Large Language Models (MLLMs) have demonstrated impressive performance across language and vision-language tasks, existing benchmarks primarily measure recognition-based skills and inadequately assess true visual reasoning capabilities. To bridge this critical gap, we introduce VERIFY, a benchmark explicitly designed to isolate and rigorously evaluate the visual reasoning capabilities of state-of-the-art MLLMs. VERIFY compels models to reason primarily from visual information, providing minimal textual context to reduce reliance on domain-specific knowledge and linguistic biases. Each problem is accompanied by a human-annotated reasoning path, making it the first to provide in-depth evaluation of model decision-making processes. Additionally, we propose novel metrics that assess visual reasoning fidelity beyond mere accuracy, highlighting critical imbalances in current model reasoning patterns. Our comprehensive benchmarking of leading MLLMs uncovers significant limitations, underscoring the need for a balanced and holistic approach to both perception and reasoning. For more teaser and testing, visit our project page (https://verify-eqh.pages.dev/).

Summary

AI-Generated Summary

PDF212March 20, 2025