Math-LLaVA: Potenciando el Razonamiento Matemático para Modelos de Lenguaje Multimodales de Gran Escala

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades de razonamiento impresionantes, particularmente en la resolución de problemas matemáticos textuales. Sin embargo, los conjuntos de datos de ajuste fino de instrucciones con imágenes de código abierto existentes, que contienen pares de preguntas-respuestas limitados por imagen, no explotan completamente la información visual para mejorar las capacidades de razonamiento matemático multimodal de los LLMs multimodales (MLLMs). Para cerrar esta brecha, abordamos la falta de conjuntos de datos matemáticos multimodales de alta calidad y diversidad mediante la recopilación de 40K imágenes de alta calidad con pares de preguntas-respuestas de 24 conjuntos de datos existentes y la síntesis de 320K pares nuevos, creando el conjunto de datos MathV360K, que mejora tanto la amplitud como la profundidad de las preguntas matemáticas multimodales. Presentamos Math-LLaVA, un modelo basado en LLaVA-1.5 ajustado con MathV360K. Este enfoque novedoso mejora significativamente las capacidades de razonamiento matemático multimodal de LLaVA-1.5, logrando un aumento de 19 puntos y un rendimiento comparable al de GPT-4V en la división minitest de MathVista. Además, Math-LLaVA demuestra una mayor generalización, mostrando mejoras sustanciales en el benchmark MMMU. Nuestra investigación destaca la importancia de la diversidad y síntesis de conjuntos de datos para avanzar en las habilidades de razonamiento matemático de los MLLMs. El código y los datos están disponibles en: https://github.com/HZQ950419/Math-LLaVA.

English

Large language models (LLMs) have demonstrated impressive reasoning capabilities, particularly in textual mathematical problem-solving. However, existing open-source image instruction fine-tuning datasets, containing limited question-answer pairs per image, do not fully exploit visual information to enhance the multimodal mathematical reasoning capabilities of Multimodal LLMs (MLLMs). To bridge this gap, we address the lack of high-quality, diverse multimodal mathematical datasets by collecting 40K high-quality images with question-answer pairs from 24 existing datasets and synthesizing 320K new pairs, creating the MathV360K dataset, which enhances both the breadth and depth of multimodal mathematical questions. We introduce Math-LLaVA, a LLaVA-1.5-based model fine-tuned with MathV360K. This novel approach significantly improves the multimodal mathematical reasoning capabilities of LLaVA-1.5, achieving a 19-point increase and comparable performance to GPT-4V on MathVista's minitest split. Furthermore, Math-LLaVA demonstrates enhanced generalizability, showing substantial improvements on the MMMU benchmark. Our research highlights the importance of dataset diversity and synthesis in advancing MLLMs' mathematical reasoning abilities. The code and data are available at: https://github.com/HZQ950419/Math-LLaVA.

Math-LLaVA: Potenciando el Razonamiento Matemático para Modelos de Lenguaje Multimodales de Gran Escala

Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

Resumen

Support