MathVerse: ¿Tu LLM multimodal realmente comprende los diagramas en problemas visuales de matemáticas?
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?
March 21, 2024
Autores: Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Peng Gao, Hongsheng Li
cs.AI
Resumen
El notable progreso de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) ha captado una atención sin precedentes, debido a su desempeño superior en contextos visuales. Sin embargo, sus capacidades para resolver problemas matemáticos visuales aún no han sido suficientemente evaluadas ni comprendidas. Investigamos los puntos de referencia actuales que incorporan contenido visual excesivo dentro de preguntas textuales, lo que potencialmente podría ayudar a los MLLMs a deducir respuestas sin interpretar verdaderamente los diagramas de entrada. Con este fin, presentamos MathVerse, un punto de referencia visual integral de matemáticas diseñado para una evaluación equitativa y profunda de los MLLMs. Meticulosamente recopilamos 2,612 problemas matemáticos de alta calidad y multidisciplinares con diagramas, provenientes de fuentes disponibles públicamente. Cada problema es luego transformado por anotadores humanos en seis versiones distintas, cada una ofreciendo diferentes grados de contenido informativo en multimodalidad, contribuyendo a un total de 15,000 muestras de prueba. Este enfoque permite que MathVerse evalúe de manera integral si y cuánto los MLLMs pueden comprender verdaderamente los diagramas visuales para el razonamiento matemático. Además, proponemos una estrategia de evaluación de Cadena de Pensamiento (CoT, por sus siglas en inglés) para una valoración detallada de las respuestas generadas. En lugar de juzgar de manera simplista como Verdadero o Falso, empleamos GPT-4(V) para extraer adaptativamente pasos cruciales de razonamiento, y luego calificar cada paso con un análisis detallado de errores, lo que puede revelar la calidad intermedia del razonamiento CoT por parte de los MLLMs. Esperamos que el punto de referencia MathVerse pueda proporcionar perspectivas únicas para guiar el desarrollo futuro de los MLLMs. Página del proyecto: https://mathverse-cuhk.github.io
English
The remarkable progress of Multi-modal Large Language Models (MLLMs) has
garnered unparalleled attention, due to their superior performance in visual
contexts. However, their capabilities in visual math problem-solving remain
insufficiently evaluated and understood. We investigate current benchmarks to
incorporate excessive visual content within textual questions, which
potentially assist MLLMs in deducing answers without truly interpreting the
input diagrams. To this end, we introduce MathVerse, an all-around visual math
benchmark designed for an equitable and in-depth evaluation of MLLMs. We
meticulously collect 2,612 high-quality, multi-subject math problems with
diagrams from publicly available sources. Each problem is then transformed by
human annotators into six distinct versions, each offering varying degrees of
information content in multi-modality, contributing to 15K test samples in
total. This approach allows MathVerse to comprehensively assess whether and how
much MLLMs can truly understand the visual diagrams for mathematical reasoning.
In addition, we propose a Chain-of-Thought (CoT) evaluation strategy for a
fine-grained assessment of the output answers. Rather than naively judging True
or False, we employ GPT-4(V) to adaptively extract crucial reasoning steps, and
then score each step with detailed error analysis, which can reveal the
intermediate CoT reasoning quality by MLLMs. We hope the MathVerse benchmark
may provide unique insights to guide the future development of MLLMs. Project
page: https://mathverse-cuhk.github.ioSummary
AI-Generated Summary