ChatPaper.aiChatPaper

VERIFY: Um Benchmark de Explicação Visual e Raciocínio para Investigar a Fidelidade do Raciocínio Multimodal

VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity

March 14, 2025
Autores: Jing Bi, Junjia Guo, Susan Liang, Guangyu Sun, Luchuan Song, Yunlong Tang, Jinxi He, Jiarui Wu, Ali Vosoughi, Chen Chen, Chenliang Xu
cs.AI

Resumo

O raciocínio visual é central para a cognição humana, permitindo que os indivíduos interpretem e compreendam abstratamente o seu ambiente. Embora os recentes Modelos de Linguagem Multimodal de Grande Escala (MLLMs) tenham demonstrado desempenho impressionante em tarefas de linguagem e visão-linguagem, os benchmarks existentes medem principalmente habilidades baseadas em reconhecimento e avaliam de forma inadequada as verdadeiras capacidades de raciocínio visual. Para preencher essa lacuna crítica, introduzimos o VERIFY, um benchmark explicitamente projetado para isolar e avaliar rigorosamente as capacidades de raciocínio visual dos MLLMs mais avançados. O VERIFY obriga os modelos a raciocinar principalmente a partir de informações visuais, fornecendo um contexto textual mínimo para reduzir a dependência de conhecimento específico de domínio e vieses linguísticos. Cada problema é acompanhado por um caminho de raciocínio anotado por humanos, tornando-o o primeiro a fornecer uma avaliação detalhada dos processos de tomada de decisão dos modelos. Além disso, propomos novas métricas que avaliam a fidelidade do raciocínio visual além da mera precisão, destacando desequilíbrios críticos nos padrões de raciocínio dos modelos atuais. Nossa avaliação abrangente dos principais MLLMs revela limitações significativas, ressaltando a necessidade de uma abordagem equilibrada e holística tanto para a percepção quanto para o raciocínio. Para mais informações e testes, visite nossa página do projeto (https://verify-eqh.pages.dev/).
English
Visual reasoning is central to human cognition, enabling individuals to interpret and abstractly understand their environment. Although recent Multimodal Large Language Models (MLLMs) have demonstrated impressive performance across language and vision-language tasks, existing benchmarks primarily measure recognition-based skills and inadequately assess true visual reasoning capabilities. To bridge this critical gap, we introduce VERIFY, a benchmark explicitly designed to isolate and rigorously evaluate the visual reasoning capabilities of state-of-the-art MLLMs. VERIFY compels models to reason primarily from visual information, providing minimal textual context to reduce reliance on domain-specific knowledge and linguistic biases. Each problem is accompanied by a human-annotated reasoning path, making it the first to provide in-depth evaluation of model decision-making processes. Additionally, we propose novel metrics that assess visual reasoning fidelity beyond mere accuracy, highlighting critical imbalances in current model reasoning patterns. Our comprehensive benchmarking of leading MLLMs uncovers significant limitations, underscoring the need for a balanced and holistic approach to both perception and reasoning. For more teaser and testing, visit our project page (https://verify-eqh.pages.dev/).

Summary

AI-Generated Summary

PDF212March 20, 2025