MathVerse: ¿Tu LLM multimodal realmente comprende los diagramas en problemas visuales de matemáticas?

Resumen

El notable progreso de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) ha captado una atención sin precedentes, debido a su desempeño superior en contextos visuales. Sin embargo, sus capacidades para resolver problemas matemáticos visuales aún no han sido suficientemente evaluadas ni comprendidas. Investigamos los puntos de referencia actuales que incorporan contenido visual excesivo dentro de preguntas textuales, lo que potencialmente podría ayudar a los MLLMs a deducir respuestas sin interpretar verdaderamente los diagramas de entrada. Con este fin, presentamos MathVerse, un punto de referencia visual integral de matemáticas diseñado para una evaluación equitativa y profunda de los MLLMs. Meticulosamente recopilamos 2,612 problemas matemáticos de alta calidad y multidisciplinares con diagramas, provenientes de fuentes disponibles públicamente. Cada problema es luego transformado por anotadores humanos en seis versiones distintas, cada una ofreciendo diferentes grados de contenido informativo en multimodalidad, contribuyendo a un total de 15,000 muestras de prueba. Este enfoque permite que MathVerse evalúe de manera integral si y cuánto los MLLMs pueden comprender verdaderamente los diagramas visuales para el razonamiento matemático. Además, proponemos una estrategia de evaluación de Cadena de Pensamiento (CoT, por sus siglas en inglés) para una valoración detallada de las respuestas generadas. En lugar de juzgar de manera simplista como Verdadero o Falso, empleamos GPT-4(V) para extraer adaptativamente pasos cruciales de razonamiento, y luego calificar cada paso con un análisis detallado de errores, lo que puede revelar la calidad intermedia del razonamiento CoT por parte de los MLLMs. Esperamos que el punto de referencia MathVerse pueda proporcionar perspectivas únicas para guiar el desarrollo futuro de los MLLMs. Página del proyecto: https://mathverse-cuhk.github.io

English

The remarkable progress of Multi-modal Large Language Models (MLLMs) has garnered unparalleled attention, due to their superior performance in visual contexts. However, their capabilities in visual math problem-solving remain insufficiently evaluated and understood. We investigate current benchmarks to incorporate excessive visual content within textual questions, which potentially assist MLLMs in deducing answers without truly interpreting the input diagrams. To this end, we introduce MathVerse, an all-around visual math benchmark designed for an equitable and in-depth evaluation of MLLMs. We meticulously collect 2,612 high-quality, multi-subject math problems with diagrams from publicly available sources. Each problem is then transformed by human annotators into six distinct versions, each offering varying degrees of information content in multi-modality, contributing to 15K test samples in total. This approach allows MathVerse to comprehensively assess whether and how much MLLMs can truly understand the visual diagrams for mathematical reasoning. In addition, we propose a Chain-of-Thought (CoT) evaluation strategy for a fine-grained assessment of the output answers. Rather than naively judging True or False, we employ GPT-4(V) to adaptively extract crucial reasoning steps, and then score each step with detailed error analysis, which can reveal the intermediate CoT reasoning quality by MLLMs. We hope the MathVerse benchmark may provide unique insights to guide the future development of MLLMs. Project page: https://mathverse-cuhk.github.io

MathVerse: ¿Tu LLM multimodal realmente comprende los diagramas en problemas visuales de matemáticas?

MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?

Resumen

Support