ChatPaper.aiChatPaper

Math-LLaVA: 멀티모달 대규모 언어 모델을 위한 수학적 추론 부트스트래핑

Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

June 25, 2024
저자: Wenhao Shi, Zhiqiang Hu, Yi Bin, Junhua Liu, Yang Yang, See-Kiong Ng, Lidong Bing, Roy Ka-Wei Lee
cs.AI

초록

대형 언어 모델(LLM)은 특히 텍스트 기반 수학 문제 해결에서 인상적인 추론 능력을 보여주고 있습니다. 그러나 기존의 오픈소스 이미지 지시 미세 조정 데이터셋은 이미지당 제한된 질문-답변 쌍만을 포함하고 있어, 다중모달 LLM(MLLM)의 수학적 추론 능력을 향상시키기 위한 시각 정보를 충분히 활용하지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 24개의 기존 데이터셋에서 40K개의 고품질 이미지와 질문-답변 쌍을 수집하고 320K개의 새로운 쌍을 합성하여 MathV360K 데이터셋을 생성함으로써 다중모달 수학 문제의 폭과 깊이를 모두 강화했습니다. 우리는 MathV360K로 미세 조정된 LLaVA-1.5 기반 모델인 Math-LLaVA를 소개합니다. 이 새로운 접근 방식은 LLaVA-1.5의 다중모달 수학적 추론 능력을 크게 향상시켜, MathVista의 미니테스트 분할에서 19점의 증가를 달성하고 GPT-4V와 비슷한 성능을 보여줍니다. 또한, Math-LLaVA는 MMMU 벤치마크에서도 향상된 일반화 능력을 입증하며 상당한 개선을 보여줍니다. 우리의 연구는 MLLM의 수학적 추론 능력을 발전시키기 위해 데이터셋 다양성과 합성의 중요성을 강조합니다. 코드와 데이터는 https://github.com/HZQ950419/Math-LLaVA에서 확인할 수 있습니다.
English
Large language models (LLMs) have demonstrated impressive reasoning capabilities, particularly in textual mathematical problem-solving. However, existing open-source image instruction fine-tuning datasets, containing limited question-answer pairs per image, do not fully exploit visual information to enhance the multimodal mathematical reasoning capabilities of Multimodal LLMs (MLLMs). To bridge this gap, we address the lack of high-quality, diverse multimodal mathematical datasets by collecting 40K high-quality images with question-answer pairs from 24 existing datasets and synthesizing 320K new pairs, creating the MathV360K dataset, which enhances both the breadth and depth of multimodal mathematical questions. We introduce Math-LLaVA, a LLaVA-1.5-based model fine-tuned with MathV360K. This novel approach significantly improves the multimodal mathematical reasoning capabilities of LLaVA-1.5, achieving a 19-point increase and comparable performance to GPT-4V on MathVista's minitest split. Furthermore, Math-LLaVA demonstrates enhanced generalizability, showing substantial improvements on the MMMU benchmark. Our research highlights the importance of dataset diversity and synthesis in advancing MLLMs' mathematical reasoning abilities. The code and data are available at: https://github.com/HZQ950419/Math-LLaVA.

Summary

AI-Generated Summary

PDF111November 29, 2024