Math-LLaVA: Potenciando el Razonamiento Matemático para Modelos de Lenguaje Multimodales de Gran Escala
Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models
June 25, 2024
Autores: Wenhao Shi, Zhiqiang Hu, Yi Bin, Junhua Liu, Yang Yang, See-Kiong Ng, Lidong Bing, Roy Ka-Wei Lee
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades de razonamiento impresionantes, particularmente en la resolución de problemas matemáticos textuales. Sin embargo, los conjuntos de datos de ajuste fino de instrucciones con imágenes de código abierto existentes, que contienen pares de preguntas-respuestas limitados por imagen, no explotan completamente la información visual para mejorar las capacidades de razonamiento matemático multimodal de los LLMs multimodales (MLLMs). Para cerrar esta brecha, abordamos la falta de conjuntos de datos matemáticos multimodales de alta calidad y diversidad mediante la recopilación de 40K imágenes de alta calidad con pares de preguntas-respuestas de 24 conjuntos de datos existentes y la síntesis de 320K pares nuevos, creando el conjunto de datos MathV360K, que mejora tanto la amplitud como la profundidad de las preguntas matemáticas multimodales. Presentamos Math-LLaVA, un modelo basado en LLaVA-1.5 ajustado con MathV360K. Este enfoque novedoso mejora significativamente las capacidades de razonamiento matemático multimodal de LLaVA-1.5, logrando un aumento de 19 puntos y un rendimiento comparable al de GPT-4V en la división minitest de MathVista. Además, Math-LLaVA demuestra una mayor generalización, mostrando mejoras sustanciales en el benchmark MMMU. Nuestra investigación destaca la importancia de la diversidad y síntesis de conjuntos de datos para avanzar en las habilidades de razonamiento matemático de los MLLMs. El código y los datos están disponibles en: https://github.com/HZQ950419/Math-LLaVA.
English
Large language models (LLMs) have demonstrated impressive reasoning
capabilities, particularly in textual mathematical problem-solving. However,
existing open-source image instruction fine-tuning datasets, containing limited
question-answer pairs per image, do not fully exploit visual information to
enhance the multimodal mathematical reasoning capabilities of Multimodal LLMs
(MLLMs). To bridge this gap, we address the lack of high-quality, diverse
multimodal mathematical datasets by collecting 40K high-quality images with
question-answer pairs from 24 existing datasets and synthesizing 320K new
pairs, creating the MathV360K dataset, which enhances both the breadth and
depth of multimodal mathematical questions. We introduce Math-LLaVA, a
LLaVA-1.5-based model fine-tuned with MathV360K. This novel approach
significantly improves the multimodal mathematical reasoning capabilities of
LLaVA-1.5, achieving a 19-point increase and comparable performance to GPT-4V
on MathVista's minitest split. Furthermore, Math-LLaVA demonstrates enhanced
generalizability, showing substantial improvements on the MMMU benchmark. Our
research highlights the importance of dataset diversity and synthesis in
advancing MLLMs' mathematical reasoning abilities. The code and data are
available at: https://github.com/HZQ950419/Math-LLaVA.Summary
AI-Generated Summary