MathCoder-VL: Colmare il Divario tra Visione e Codice per un Ragionamento Matematico Multimodale Potenziato
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning
May 15, 2025
Autori: Ke Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li
cs.AI
Abstract
I dataset di didascalie per immagini in linguaggio naturale, ampiamente utilizzati per l'addestramento di Modelli Multimodali di Grande Scala (LMM), si concentrano principalmente su scenari naturali e trascurano i dettagli intricati delle figure matematiche che sono cruciali per la risoluzione dei problemi, ostacolando il progresso degli attuali LMM nel ragionamento matematico multimodale. A tal fine, proponiamo di sfruttare il codice come supervisione per l'allineamento cross-modale, poiché il codice codifica intrinsecamente tutte le informazioni necessarie per generare le figure corrispondenti, stabilendo una connessione precisa tra le due modalità. Nello specifico, co-sviluppiamo il nostro modello da immagine a codice e il dataset con un approccio model-in-the-loop, ottenendo un modello da immagine a codice, FigCodifier, e il dataset ImgCode-8.6M, il più grande dataset immagine-codice fino ad oggi. Inoltre, utilizziamo FigCodifier per sintetizzare nuove figure matematiche e quindi costruiamo MM-MathInstruct-3M, un dataset di fine-tuning di alta qualità per istruzioni matematiche multimodali. Infine, presentiamo MathCoder-VL, addestrato con ImgCode-8.6M per l'allineamento cross-modale e successivamente fine-tuned su MM-MathInstruct-3M per la risoluzione di problemi matematici multimodali. Il nostro modello raggiunge un nuovo stato dell'arte open-source in tutte le sei metriche. In particolare, supera GPT-4o e Claude 3.5 Sonnet nel sottoinsieme di risoluzione di problemi di geometria di MathVista, ottenendo miglioramenti dell'8,9% e del 9,2%. Il dataset e i modelli saranno rilasciati su https://github.com/mathllm/MathCoder.
English
Natural language image-caption datasets, widely used for training Large
Multimodal Models, mainly focus on natural scenarios and overlook the intricate
details of mathematical figures that are critical for problem-solving,
hindering the advancement of current LMMs in multimodal mathematical reasoning.
To this end, we propose leveraging code as supervision for cross-modal
alignment, since code inherently encodes all information needed to generate
corresponding figures, establishing a precise connection between the two
modalities. Specifically, we co-develop our image-to-code model and dataset
with model-in-the-loop approach, resulting in an image-to-code model,
FigCodifier and ImgCode-8.6M dataset, the largest image-code dataset to date.
Furthermore, we utilize FigCodifier to synthesize novel mathematical figures
and then construct MM-MathInstruct-3M, a high-quality multimodal math
instruction fine-tuning dataset. Finally, we present MathCoder-VL, trained with
ImgCode-8.6M for cross-modal alignment and subsequently fine-tuned on
MM-MathInstruct-3M for multimodal math problem solving. Our model achieves a
new open-source SOTA across all six metrics. Notably, it surpasses GPT-4o and
Claude 3.5 Sonnet in the geometry problem-solving subset of MathVista,
achieving improvements of 8.9% and 9.2%. The dataset and models will be
released at https://github.com/mathllm/MathCoder.