ChatPaper.aiChatPaper

VERIFY: Un punto de referencia para la explicación visual y el razonamiento en la investigación de la fidelidad del razonamiento multimodal

VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity

March 14, 2025
Autores: Jing Bi, Junjia Guo, Susan Liang, Guangyu Sun, Luchuan Song, Yunlong Tang, Jinxi He, Jiarui Wu, Ali Vosoughi, Chen Chen, Chenliang Xu
cs.AI

Resumen

El razonamiento visual es fundamental para la cognición humana, permitiendo a los individuos interpretar y comprender de manera abstracta su entorno. Aunque los Modelos de Lenguaje Multimodales (MLLMs) recientes han demostrado un rendimiento impresionante en tareas de lenguaje y visión-lenguaje, los puntos de referencia existentes miden principalmente habilidades basadas en el reconocimiento y evalúan de manera insuficiente las verdaderas capacidades de razonamiento visual. Para cerrar esta brecha crítica, presentamos VERIFY, un punto de referencia diseñado explícitamente para aislar y evaluar rigurosamente las capacidades de razonamiento visual de los MLLMs más avanzados. VERIFY obliga a los modelos a razonar principalmente a partir de información visual, proporcionando un contexto textual mínimo para reducir la dependencia del conocimiento específico del dominio y los sesgos lingüísticos. Cada problema está acompañado por una ruta de razonamiento anotada por humanos, lo que lo convierte en el primero en proporcionar una evaluación en profundidad de los procesos de toma de decisiones de los modelos. Además, proponemos nuevas métricas que evalúan la fidelidad del razonamiento visual más allá de la mera precisión, destacando desequilibrios críticos en los patrones de razonamiento de los modelos actuales. Nuestra evaluación integral de los principales MLLMs revela limitaciones significativas, subrayando la necesidad de un enfoque equilibrado y holístico tanto para la percepción como para el razonamiento. Para más detalles y pruebas, visite nuestra página del proyecto (https://verify-eqh.pages.dev/).
English
Visual reasoning is central to human cognition, enabling individuals to interpret and abstractly understand their environment. Although recent Multimodal Large Language Models (MLLMs) have demonstrated impressive performance across language and vision-language tasks, existing benchmarks primarily measure recognition-based skills and inadequately assess true visual reasoning capabilities. To bridge this critical gap, we introduce VERIFY, a benchmark explicitly designed to isolate and rigorously evaluate the visual reasoning capabilities of state-of-the-art MLLMs. VERIFY compels models to reason primarily from visual information, providing minimal textual context to reduce reliance on domain-specific knowledge and linguistic biases. Each problem is accompanied by a human-annotated reasoning path, making it the first to provide in-depth evaluation of model decision-making processes. Additionally, we propose novel metrics that assess visual reasoning fidelity beyond mere accuracy, highlighting critical imbalances in current model reasoning patterns. Our comprehensive benchmarking of leading MLLMs uncovers significant limitations, underscoring the need for a balanced and holistic approach to both perception and reasoning. For more teaser and testing, visit our project page (https://verify-eqh.pages.dev/).

Summary

AI-Generated Summary

PDF212March 20, 2025