VERIFY: Бенчмарк для визуального объяснения и рассуждений с целью исследования достоверности мультимодального рассуждения
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity
March 14, 2025
Авторы: Jing Bi, Junjia Guo, Susan Liang, Guangyu Sun, Luchuan Song, Yunlong Tang, Jinxi He, Jiarui Wu, Ali Vosoughi, Chen Chen, Chenliang Xu
cs.AI
Аннотация
Визуальное мышление занимает центральное место в человеческом познании, позволяя людям интерпретировать и абстрактно понимать окружающую среду. Хотя современные мультимодальные большие языковые модели (MLLMs) продемонстрировали впечатляющие результаты в задачах, связанных с языком и взаимодействием языка и зрения, существующие бенчмарки в основном измеряют навыки распознавания и недостаточно оценивают истинные способности к визуальному мышлению. Чтобы устранить этот критический пробел, мы представляем VERIFY — бенчмарк, специально разработанный для изоляции и строгой оценки визуальных способностей современных MLLMs. VERIFY требует от моделей рассуждать преимущественно на основе визуальной информации, предоставляя минимальный текстовый контекст, чтобы снизить зависимость от предметных знаний и языковых предубеждений. Каждая задача сопровождается аннотированным человеком путем рассуждений, что делает VERIFY первым бенчмарком, предоставляющим глубокую оценку процессов принятия решений моделями. Кроме того, мы предлагаем новые метрики, которые оценивают достоверность визуального мышления, выходя за рамки простой точности, и выделяют критические дисбалансы в текущих моделях рассуждений. Наше всестороннее тестирование ведущих MLLMs выявляет значительные ограничения, подчеркивая необходимость сбалансированного и целостного подхода как к восприятию, так и к мышлению. Для дополнительной информации и тестирования посетите нашу страницу проекта (https://verify-eqh.pages.dev/).
English
Visual reasoning is central to human cognition, enabling individuals to
interpret and abstractly understand their environment. Although recent
Multimodal Large Language Models (MLLMs) have demonstrated impressive
performance across language and vision-language tasks, existing benchmarks
primarily measure recognition-based skills and inadequately assess true visual
reasoning capabilities. To bridge this critical gap, we introduce VERIFY, a
benchmark explicitly designed to isolate and rigorously evaluate the visual
reasoning capabilities of state-of-the-art MLLMs. VERIFY compels models to
reason primarily from visual information, providing minimal textual context to
reduce reliance on domain-specific knowledge and linguistic biases. Each
problem is accompanied by a human-annotated reasoning path, making it the first
to provide in-depth evaluation of model decision-making processes.
Additionally, we propose novel metrics that assess visual reasoning fidelity
beyond mere accuracy, highlighting critical imbalances in current model
reasoning patterns. Our comprehensive benchmarking of leading MLLMs uncovers
significant limitations, underscoring the need for a balanced and holistic
approach to both perception and reasoning. For more teaser and testing, visit
our project page (https://verify-eqh.pages.dev/).