VERIFY: Een Benchmark voor Visuele Uitleg en Redenering voor het Onderzoeken van Multimodale Redeneerfideliteit
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity
March 14, 2025
Auteurs: Jing Bi, Junjia Guo, Susan Liang, Guangyu Sun, Luchuan Song, Yunlong Tang, Jinxi He, Jiarui Wu, Ali Vosoughi, Chen Chen, Chenliang Xu
cs.AI
Samenvatting
Visueel redeneren staat centraal in de menselijke cognitie en stelt individuen in staat om hun omgeving te interpreteren en abstract te begrijpen. Hoewel recente Multimodale Grote Taalmodellen (MLLMs) indrukwekkende prestaties hebben laten zien op het gebied van taal- en visueel-taaltaken, meten bestaande benchmarks voornamelijk herkenningsvaardigheden en beoordelen ze de echte visuele redeneervaardigheden onvoldoende. Om deze kritieke kloof te overbruggen, introduceren we VERIFY, een benchmark die expliciet is ontworpen om de visuele redeneervaardigheden van state-of-the-art MLLMs te isoleren en rigoureus te evalueren. VERIFY dwingt modellen om voornamelijk vanuit visuele informatie te redeneren, waarbij minimale tekstuele context wordt geboden om de afhankelijkheid van domeinspecifieke kennis en linguïstische vooroordelen te verminderen. Elk probleem wordt vergezeld door een door mensen geannoteerd redeneerpad, waardoor het de eerste benchmark is die een diepgaande evaluatie biedt van de besluitvormingsprocessen van modellen. Daarnaast stellen we nieuwe metrieken voor die de betrouwbaarheid van visueel redeneren beoordelen, verdergaand dan alleen nauwkeurigheid, en die kritieke onevenwichtigheden in de huidige redeneerpatronen van modellen belichten. Onze uitgebreide benchmarking van toonaangevende MLLMs onthult aanzienlijke beperkingen, wat de noodzaak onderstreept van een gebalanceerde en holistische benadering van zowel perceptie als redeneren. Voor meer teasers en tests, bezoek onze projectpagina (https://verify-eqh.pages.dev/).
English
Visual reasoning is central to human cognition, enabling individuals to
interpret and abstractly understand their environment. Although recent
Multimodal Large Language Models (MLLMs) have demonstrated impressive
performance across language and vision-language tasks, existing benchmarks
primarily measure recognition-based skills and inadequately assess true visual
reasoning capabilities. To bridge this critical gap, we introduce VERIFY, a
benchmark explicitly designed to isolate and rigorously evaluate the visual
reasoning capabilities of state-of-the-art MLLMs. VERIFY compels models to
reason primarily from visual information, providing minimal textual context to
reduce reliance on domain-specific knowledge and linguistic biases. Each
problem is accompanied by a human-annotated reasoning path, making it the first
to provide in-depth evaluation of model decision-making processes.
Additionally, we propose novel metrics that assess visual reasoning fidelity
beyond mere accuracy, highlighting critical imbalances in current model
reasoning patterns. Our comprehensive benchmarking of leading MLLMs uncovers
significant limitations, underscoring the need for a balanced and holistic
approach to both perception and reasoning. For more teaser and testing, visit
our project page (https://verify-eqh.pages.dev/).Summary
AI-Generated Summary