ChatPaper.aiChatPaper

VERIFY: 다중모달 추론 충실도 조사를 위한 시각적 설명 및 추론 벤치마크

VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity

March 14, 2025
저자: Jing Bi, Junjia Guo, Susan Liang, Guangyu Sun, Luchuan Song, Yunlong Tang, Jinxi He, Jiarui Wu, Ali Vosoughi, Chen Chen, Chenliang Xu
cs.AI

초록

시각적 추론은 인간 인지의 핵심으로, 개인이 자신의 환경을 해석하고 추상적으로 이해할 수 있게 합니다. 최근의 다중모달 대형 언어 모델(MLLMs)이 언어 및 시각-언어 작업에서 인상적인 성능을 보여주었지만, 기존 벤치마크는 주로 인식 기반 기술을 측정하며 진정한 시각적 추론 능력을 충분히 평가하지 못하고 있습니다. 이러한 중요한 격차를 해소하기 위해, 우리는 최신 MLLMs의 시각적 추론 능력을 격리하고 엄격하게 평가하기 위해 명시적으로 설계된 벤치마크인 VERIFY를 소개합니다. VERIFY는 모델이 주로 시각 정보에서 추론하도록 강제하며, 도메인 특정 지식과 언어적 편향에 대한 의존을 줄이기 위해 최소한의 텍스트 컨텍스트를 제공합니다. 각 문제는 인간이 주석을 단 추론 경로와 함께 제공되어, 모델의 의사 결정 과정을 심층적으로 평가하는 최초의 벤치마크입니다. 또한, 우리는 단순한 정확도를 넘어 시각적 추론의 충실도를 평가하는 새로운 메트릭을 제안하여, 현재 모델의 추론 패턴에서 중요한 불균형을 강조합니다. 주요 MLLMs에 대한 포괄적인 벤치마킹은 상당한 한계를 드러내며, 지각과 추론 모두에 대한 균형 잡힌 종합적 접근의 필요성을 강조합니다. 더 많은 티저와 테스트를 위해 우리의 프로젝트 페이지(https://verify-eqh.pages.dev/)를 방문하세요.
English
Visual reasoning is central to human cognition, enabling individuals to interpret and abstractly understand their environment. Although recent Multimodal Large Language Models (MLLMs) have demonstrated impressive performance across language and vision-language tasks, existing benchmarks primarily measure recognition-based skills and inadequately assess true visual reasoning capabilities. To bridge this critical gap, we introduce VERIFY, a benchmark explicitly designed to isolate and rigorously evaluate the visual reasoning capabilities of state-of-the-art MLLMs. VERIFY compels models to reason primarily from visual information, providing minimal textual context to reduce reliance on domain-specific knowledge and linguistic biases. Each problem is accompanied by a human-annotated reasoning path, making it the first to provide in-depth evaluation of model decision-making processes. Additionally, we propose novel metrics that assess visual reasoning fidelity beyond mere accuracy, highlighting critical imbalances in current model reasoning patterns. Our comprehensive benchmarking of leading MLLMs uncovers significant limitations, underscoring the need for a balanced and holistic approach to both perception and reasoning. For more teaser and testing, visit our project page (https://verify-eqh.pages.dev/).

Summary

AI-Generated Summary

PDF212March 20, 2025