MathCoder-VL: Colmare il Divario tra Visione e Codice per un Ragionamento Matematico Multimodale Potenziato

Abstract

I dataset di didascalie per immagini in linguaggio naturale, ampiamente utilizzati per l'addestramento di Modelli Multimodali di Grande Scala (LMM), si concentrano principalmente su scenari naturali e trascurano i dettagli intricati delle figure matematiche che sono cruciali per la risoluzione dei problemi, ostacolando il progresso degli attuali LMM nel ragionamento matematico multimodale. A tal fine, proponiamo di sfruttare il codice come supervisione per l'allineamento cross-modale, poiché il codice codifica intrinsecamente tutte le informazioni necessarie per generare le figure corrispondenti, stabilendo una connessione precisa tra le due modalità. Nello specifico, co-sviluppiamo il nostro modello da immagine a codice e il dataset con un approccio model-in-the-loop, ottenendo un modello da immagine a codice, FigCodifier, e il dataset ImgCode-8.6M, il più grande dataset immagine-codice fino ad oggi. Inoltre, utilizziamo FigCodifier per sintetizzare nuove figure matematiche e quindi costruiamo MM-MathInstruct-3M, un dataset di fine-tuning di alta qualità per istruzioni matematiche multimodali. Infine, presentiamo MathCoder-VL, addestrato con ImgCode-8.6M per l'allineamento cross-modale e successivamente fine-tuned su MM-MathInstruct-3M per la risoluzione di problemi matematici multimodali. Il nostro modello raggiunge un nuovo stato dell'arte open-source in tutte le sei metriche. In particolare, supera GPT-4o e Claude 3.5 Sonnet nel sottoinsieme di risoluzione di problemi di geometria di MathVista, ottenendo miglioramenti dell'8,9% e del 9,2%. Il dataset e i modelli saranno rilasciati su https://github.com/mathllm/MathCoder.

English

Natural language image-caption datasets, widely used for training Large Multimodal Models, mainly focus on natural scenarios and overlook the intricate details of mathematical figures that are critical for problem-solving, hindering the advancement of current LMMs in multimodal mathematical reasoning. To this end, we propose leveraging code as supervision for cross-modal alignment, since code inherently encodes all information needed to generate corresponding figures, establishing a precise connection between the two modalities. Specifically, we co-develop our image-to-code model and dataset with model-in-the-loop approach, resulting in an image-to-code model, FigCodifier and ImgCode-8.6M dataset, the largest image-code dataset to date. Furthermore, we utilize FigCodifier to synthesize novel mathematical figures and then construct MM-MathInstruct-3M, a high-quality multimodal math instruction fine-tuning dataset. Finally, we present MathCoder-VL, trained with ImgCode-8.6M for cross-modal alignment and subsequently fine-tuned on MM-MathInstruct-3M for multimodal math problem solving. Our model achieves a new open-source SOTA across all six metrics. Notably, it surpasses GPT-4o and Claude 3.5 Sonnet in the geometry problem-solving subset of MathVista, achieving improvements of 8.9% and 9.2%. The dataset and models will be released at https://github.com/mathllm/MathCoder.

MathCoder-VL: Colmare il Divario tra Visione e Codice per un Ragionamento Matematico Multimodale Potenziato

MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning

Abstract

Support