VERIFY: Un punto de referencia para la explicación visual y el razonamiento en la investigación de la fidelidad del razonamiento multimodal
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity
March 14, 2025
Autores: Jing Bi, Junjia Guo, Susan Liang, Guangyu Sun, Luchuan Song, Yunlong Tang, Jinxi He, Jiarui Wu, Ali Vosoughi, Chen Chen, Chenliang Xu
cs.AI
Resumen
El razonamiento visual es fundamental para la cognición humana, permitiendo a los individuos interpretar y comprender de manera abstracta su entorno. Aunque los Modelos de Lenguaje Multimodales (MLLMs) recientes han demostrado un rendimiento impresionante en tareas de lenguaje y visión-lenguaje, los puntos de referencia existentes miden principalmente habilidades basadas en el reconocimiento y evalúan de manera insuficiente las verdaderas capacidades de razonamiento visual. Para cerrar esta brecha crítica, presentamos VERIFY, un punto de referencia diseñado explícitamente para aislar y evaluar rigurosamente las capacidades de razonamiento visual de los MLLMs más avanzados. VERIFY obliga a los modelos a razonar principalmente a partir de información visual, proporcionando un contexto textual mínimo para reducir la dependencia del conocimiento específico del dominio y los sesgos lingüísticos. Cada problema está acompañado por una ruta de razonamiento anotada por humanos, lo que lo convierte en el primero en proporcionar una evaluación en profundidad de los procesos de toma de decisiones de los modelos. Además, proponemos nuevas métricas que evalúan la fidelidad del razonamiento visual más allá de la mera precisión, destacando desequilibrios críticos en los patrones de razonamiento de los modelos actuales. Nuestra evaluación integral de los principales MLLMs revela limitaciones significativas, subrayando la necesidad de un enfoque equilibrado y holístico tanto para la percepción como para el razonamiento. Para más detalles y pruebas, visite nuestra página del proyecto (https://verify-eqh.pages.dev/).
English
Visual reasoning is central to human cognition, enabling individuals to
interpret and abstractly understand their environment. Although recent
Multimodal Large Language Models (MLLMs) have demonstrated impressive
performance across language and vision-language tasks, existing benchmarks
primarily measure recognition-based skills and inadequately assess true visual
reasoning capabilities. To bridge this critical gap, we introduce VERIFY, a
benchmark explicitly designed to isolate and rigorously evaluate the visual
reasoning capabilities of state-of-the-art MLLMs. VERIFY compels models to
reason primarily from visual information, providing minimal textual context to
reduce reliance on domain-specific knowledge and linguistic biases. Each
problem is accompanied by a human-annotated reasoning path, making it the first
to provide in-depth evaluation of model decision-making processes.
Additionally, we propose novel metrics that assess visual reasoning fidelity
beyond mere accuracy, highlighting critical imbalances in current model
reasoning patterns. Our comprehensive benchmarking of leading MLLMs uncovers
significant limitations, underscoring the need for a balanced and holistic
approach to both perception and reasoning. For more teaser and testing, visit
our project page (https://verify-eqh.pages.dev/).Summary
AI-Generated Summary