ChatPaper.aiChatPaper

VERIFY: Un Benchmark per le Spiegazioni Visive e il Ragionamento per Indagare la Fedeltà del Ragionamento Multimodale

VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity

March 14, 2025
Autori: Jing Bi, Junjia Guo, Susan Liang, Guangyu Sun, Luchuan Song, Yunlong Tang, Jinxi He, Jiarui Wu, Ali Vosoughi, Chen Chen, Chenliang Xu
cs.AI

Abstract

Il ragionamento visivo è centrale nella cognizione umana, consentendo agli individui di interpretare e comprendere in modo astratto il proprio ambiente. Sebbene i recenti Modelli Linguistici Multimodali di Grande Scala (MLLMs) abbiano dimostrato prestazioni impressionanti in compiti linguistici e di linguaggio-visione, i benchmark esistenti misurano principalmente abilità basate sul riconoscimento e valutano in modo inadeguato le vere capacità di ragionamento visivo. Per colmare questa lacuna critica, introduciamo VERIFY, un benchmark progettato esplicitamente per isolare e valutare rigorosamente le capacità di ragionamento visivo degli MLLMs all'avanguardia. VERIFY obbliga i modelli a ragionare principalmente dalle informazioni visive, fornendo un contesto testuale minimo per ridurre la dipendenza da conoscenze specifiche del dominio e bias linguistici. Ogni problema è accompagnato da un percorso di ragionamento annotato da esseri umani, rendendolo il primo a fornire una valutazione approfondita dei processi decisionali dei modelli. Inoltre, proponiamo nuove metriche che valutano la fedeltà del ragionamento visivo oltre la semplice accuratezza, evidenziando squilibri critici nei modelli attuali di ragionamento. Il nostro benchmarking completo dei principali MLLMs rivela significative limitazioni, sottolineando la necessità di un approccio bilanciato e olistico sia alla percezione che al ragionamento. Per ulteriori anticipazioni e test, visita la nostra pagina del progetto (https://verify-eqh.pages.dev/).
English
Visual reasoning is central to human cognition, enabling individuals to interpret and abstractly understand their environment. Although recent Multimodal Large Language Models (MLLMs) have demonstrated impressive performance across language and vision-language tasks, existing benchmarks primarily measure recognition-based skills and inadequately assess true visual reasoning capabilities. To bridge this critical gap, we introduce VERIFY, a benchmark explicitly designed to isolate and rigorously evaluate the visual reasoning capabilities of state-of-the-art MLLMs. VERIFY compels models to reason primarily from visual information, providing minimal textual context to reduce reliance on domain-specific knowledge and linguistic biases. Each problem is accompanied by a human-annotated reasoning path, making it the first to provide in-depth evaluation of model decision-making processes. Additionally, we propose novel metrics that assess visual reasoning fidelity beyond mere accuracy, highlighting critical imbalances in current model reasoning patterns. Our comprehensive benchmarking of leading MLLMs uncovers significant limitations, underscoring the need for a balanced and holistic approach to both perception and reasoning. For more teaser and testing, visit our project page (https://verify-eqh.pages.dev/).
PDF212March 20, 2025