MathCoder-VL: Brückenschlag zwischen Vision und Code für erweitertes multimodales mathematisches Denken
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning
May 15, 2025
papers.authors: Ke Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li
cs.AI
papers.abstract
Natürliche Sprach-Bildunterschriftendatensätze, die häufig für das Training von großen multimodalen Modellen verwendet werden, konzentrieren sich hauptsächlich auf natürliche Szenarien und übersehen die komplexen Details mathematischer Abbildungen, die für die Problemlösung entscheidend sind. Dies behindert den Fortschritt aktueller multimodaler Modelle im Bereich des multimodalen mathematischen Denkens. Um dies zu adressieren, schlagen wir vor, Code als Supervision für die cross-modale Ausrichtung zu nutzen, da Code inhärent alle Informationen kodiert, die zur Erstellung entsprechender Abbildungen benötigt werden, und somit eine präzise Verbindung zwischen den beiden Modalitäten herstellt. Konkret entwickeln wir unser Bild-zu-Code-Modell und den dazugehörigen Datensatz mit einem Model-in-the-Loop-Ansatz, was zu dem Bild-zu-Code-Modell FigCodifier und dem ImgCode-8.6M-Datensatz führt, dem bisher größten Bild-Code-Datensatz. Darüber hinaus nutzen wir FigCodifier, um neue mathematische Abbildungen zu synthetisieren und anschließend MM-MathInstruct-3M zu konstruieren, einen hochwertigen multimodalen mathematischen Instruktions-Fine-Tuning-Datensatz. Schließlich präsentieren wir MathCoder-VL, das mit ImgCode-8.6M für die cross-modale Ausrichtung trainiert und anschließend auf MM-MathInstruct-3M für die multimodale mathematische Problemlösung feinabgestimmt wurde. Unser Modell erreicht einen neuen Open-Source-SOTA-Wert in allen sechs Metriken. Bemerkenswerterweise übertrifft es GPT-4o und Claude 3.5 Sonnet im geometrischen Problemlösungsteil von MathVista mit Verbesserungen von 8,9 % bzw. 9,2 %. Die Datensätze und Modelle werden unter https://github.com/mathllm/MathCoder veröffentlicht.
English
Natural language image-caption datasets, widely used for training Large
Multimodal Models, mainly focus on natural scenarios and overlook the intricate
details of mathematical figures that are critical for problem-solving,
hindering the advancement of current LMMs in multimodal mathematical reasoning.
To this end, we propose leveraging code as supervision for cross-modal
alignment, since code inherently encodes all information needed to generate
corresponding figures, establishing a precise connection between the two
modalities. Specifically, we co-develop our image-to-code model and dataset
with model-in-the-loop approach, resulting in an image-to-code model,
FigCodifier and ImgCode-8.6M dataset, the largest image-code dataset to date.
Furthermore, we utilize FigCodifier to synthesize novel mathematical figures
and then construct MM-MathInstruct-3M, a high-quality multimodal math
instruction fine-tuning dataset. Finally, we present MathCoder-VL, trained with
ImgCode-8.6M for cross-modal alignment and subsequently fine-tuned on
MM-MathInstruct-3M for multimodal math problem solving. Our model achieves a
new open-source SOTA across all six metrics. Notably, it surpasses GPT-4o and
Claude 3.5 Sonnet in the geometry problem-solving subset of MathVista,
achieving improvements of 8.9% and 9.2%. The dataset and models will be
released at https://github.com/mathllm/MathCoder.