VERIFY: Un Benchmark per le Spiegazioni Visive e il Ragionamento per Indagare la Fedeltà del Ragionamento Multimodale
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity
March 14, 2025
Autori: Jing Bi, Junjia Guo, Susan Liang, Guangyu Sun, Luchuan Song, Yunlong Tang, Jinxi He, Jiarui Wu, Ali Vosoughi, Chen Chen, Chenliang Xu
cs.AI
Abstract
Il ragionamento visivo è centrale nella cognizione umana, consentendo agli individui di interpretare e comprendere in modo astratto il proprio ambiente. Sebbene i recenti Modelli Linguistici Multimodali di Grande Scala (MLLMs) abbiano dimostrato prestazioni impressionanti in compiti linguistici e di linguaggio-visione, i benchmark esistenti misurano principalmente abilità basate sul riconoscimento e valutano in modo inadeguato le vere capacità di ragionamento visivo. Per colmare questa lacuna critica, introduciamo VERIFY, un benchmark progettato esplicitamente per isolare e valutare rigorosamente le capacità di ragionamento visivo degli MLLMs all'avanguardia. VERIFY obbliga i modelli a ragionare principalmente dalle informazioni visive, fornendo un contesto testuale minimo per ridurre la dipendenza da conoscenze specifiche del dominio e bias linguistici. Ogni problema è accompagnato da un percorso di ragionamento annotato da esseri umani, rendendolo il primo a fornire una valutazione approfondita dei processi decisionali dei modelli. Inoltre, proponiamo nuove metriche che valutano la fedeltà del ragionamento visivo oltre la semplice accuratezza, evidenziando squilibri critici nei modelli attuali di ragionamento. Il nostro benchmarking completo dei principali MLLMs rivela significative limitazioni, sottolineando la necessità di un approccio bilanciato e olistico sia alla percezione che al ragionamento. Per ulteriori anticipazioni e test, visita la nostra pagina del progetto (https://verify-eqh.pages.dev/).
English
Visual reasoning is central to human cognition, enabling individuals to
interpret and abstractly understand their environment. Although recent
Multimodal Large Language Models (MLLMs) have demonstrated impressive
performance across language and vision-language tasks, existing benchmarks
primarily measure recognition-based skills and inadequately assess true visual
reasoning capabilities. To bridge this critical gap, we introduce VERIFY, a
benchmark explicitly designed to isolate and rigorously evaluate the visual
reasoning capabilities of state-of-the-art MLLMs. VERIFY compels models to
reason primarily from visual information, providing minimal textual context to
reduce reliance on domain-specific knowledge and linguistic biases. Each
problem is accompanied by a human-annotated reasoning path, making it the first
to provide in-depth evaluation of model decision-making processes.
Additionally, we propose novel metrics that assess visual reasoning fidelity
beyond mere accuracy, highlighting critical imbalances in current model
reasoning patterns. Our comprehensive benchmarking of leading MLLMs uncovers
significant limitations, underscoring the need for a balanced and holistic
approach to both perception and reasoning. For more teaser and testing, visit
our project page (https://verify-eqh.pages.dev/).