ChatPaper.aiChatPaper

VERIFY: Бенчмарк для визуального объяснения и рассуждений с целью исследования достоверности мультимодального рассуждения

VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity

March 14, 2025
Авторы: Jing Bi, Junjia Guo, Susan Liang, Guangyu Sun, Luchuan Song, Yunlong Tang, Jinxi He, Jiarui Wu, Ali Vosoughi, Chen Chen, Chenliang Xu
cs.AI

Аннотация

Визуальное мышление занимает центральное место в человеческом познании, позволяя людям интерпретировать и абстрактно понимать окружающую среду. Хотя современные мультимодальные большие языковые модели (MLLMs) продемонстрировали впечатляющие результаты в задачах, связанных с языком и взаимодействием языка и зрения, существующие бенчмарки в основном измеряют навыки распознавания и недостаточно оценивают истинные способности к визуальному мышлению. Чтобы устранить этот критический пробел, мы представляем VERIFY — бенчмарк, специально разработанный для изоляции и строгой оценки визуальных способностей современных MLLMs. VERIFY требует от моделей рассуждать преимущественно на основе визуальной информации, предоставляя минимальный текстовый контекст, чтобы снизить зависимость от предметных знаний и языковых предубеждений. Каждая задача сопровождается аннотированным человеком путем рассуждений, что делает VERIFY первым бенчмарком, предоставляющим глубокую оценку процессов принятия решений моделями. Кроме того, мы предлагаем новые метрики, которые оценивают достоверность визуального мышления, выходя за рамки простой точности, и выделяют критические дисбалансы в текущих моделях рассуждений. Наше всестороннее тестирование ведущих MLLMs выявляет значительные ограничения, подчеркивая необходимость сбалансированного и целостного подхода как к восприятию, так и к мышлению. Для дополнительной информации и тестирования посетите нашу страницу проекта (https://verify-eqh.pages.dev/).
English
Visual reasoning is central to human cognition, enabling individuals to interpret and abstractly understand their environment. Although recent Multimodal Large Language Models (MLLMs) have demonstrated impressive performance across language and vision-language tasks, existing benchmarks primarily measure recognition-based skills and inadequately assess true visual reasoning capabilities. To bridge this critical gap, we introduce VERIFY, a benchmark explicitly designed to isolate and rigorously evaluate the visual reasoning capabilities of state-of-the-art MLLMs. VERIFY compels models to reason primarily from visual information, providing minimal textual context to reduce reliance on domain-specific knowledge and linguistic biases. Each problem is accompanied by a human-annotated reasoning path, making it the first to provide in-depth evaluation of model decision-making processes. Additionally, we propose novel metrics that assess visual reasoning fidelity beyond mere accuracy, highlighting critical imbalances in current model reasoning patterns. Our comprehensive benchmarking of leading MLLMs uncovers significant limitations, underscoring the need for a balanced and holistic approach to both perception and reasoning. For more teaser and testing, visit our project page (https://verify-eqh.pages.dev/).
PDF212March 20, 2025