VERIFY: Een Benchmark voor Visuele Uitleg en Redenering voor het Onderzoeken van Multimodale Redeneerfideliteit

Samenvatting

Visueel redeneren staat centraal in de menselijke cognitie en stelt individuen in staat om hun omgeving te interpreteren en abstract te begrijpen. Hoewel recente Multimodale Grote Taalmodellen (MLLMs) indrukwekkende prestaties hebben laten zien op het gebied van taal- en visueel-taaltaken, meten bestaande benchmarks voornamelijk herkenningsvaardigheden en beoordelen ze de echte visuele redeneervaardigheden onvoldoende. Om deze kritieke kloof te overbruggen, introduceren we VERIFY, een benchmark die expliciet is ontworpen om de visuele redeneervaardigheden van state-of-the-art MLLMs te isoleren en rigoureus te evalueren. VERIFY dwingt modellen om voornamelijk vanuit visuele informatie te redeneren, waarbij minimale tekstuele context wordt geboden om de afhankelijkheid van domeinspecifieke kennis en linguïstische vooroordelen te verminderen. Elk probleem wordt vergezeld door een door mensen geannoteerd redeneerpad, waardoor het de eerste benchmark is die een diepgaande evaluatie biedt van de besluitvormingsprocessen van modellen. Daarnaast stellen we nieuwe metrieken voor die de betrouwbaarheid van visueel redeneren beoordelen, verdergaand dan alleen nauwkeurigheid, en die kritieke onevenwichtigheden in de huidige redeneerpatronen van modellen belichten. Onze uitgebreide benchmarking van toonaangevende MLLMs onthult aanzienlijke beperkingen, wat de noodzaak onderstreept van een gebalanceerde en holistische benadering van zowel perceptie als redeneren. Voor meer teasers en tests, bezoek onze projectpagina (https://verify-eqh.pages.dev/).

English

Visual reasoning is central to human cognition, enabling individuals to interpret and abstractly understand their environment. Although recent Multimodal Large Language Models (MLLMs) have demonstrated impressive performance across language and vision-language tasks, existing benchmarks primarily measure recognition-based skills and inadequately assess true visual reasoning capabilities. To bridge this critical gap, we introduce VERIFY, a benchmark explicitly designed to isolate and rigorously evaluate the visual reasoning capabilities of state-of-the-art MLLMs. VERIFY compels models to reason primarily from visual information, providing minimal textual context to reduce reliance on domain-specific knowledge and linguistic biases. Each problem is accompanied by a human-annotated reasoning path, making it the first to provide in-depth evaluation of model decision-making processes. Additionally, we propose novel metrics that assess visual reasoning fidelity beyond mere accuracy, highlighting critical imbalances in current model reasoning patterns. Our comprehensive benchmarking of leading MLLMs uncovers significant limitations, underscoring the need for a balanced and holistic approach to both perception and reasoning. For more teaser and testing, visit our project page (https://verify-eqh.pages.dev/).

VERIFY: Een Benchmark voor Visuele Uitleg en Redenering voor het Onderzoeken van Multimodale Redeneerfideliteit

VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity

Samenvatting

Support