MathCoder-VL: Verbinding tussen Visie en Code voor Verbeterd Multimodaal Wiskundig Redeneren
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning
May 15, 2025
Auteurs: Ke Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li
cs.AI
Samenvatting
Datasets voor beeldbeschrijvingen in natuurlijke taal, die veel worden gebruikt voor het trainen van grote multimodale modellen, richten zich voornamelijk op natuurlijke scenario's en negeren de complexe details van wiskundige figuren die cruciaal zijn voor probleemoplossing. Dit belemmert de vooruitgang van huidige multimodale modellen in multimodale wiskundige redenering. Om dit aan te pakken, stellen we voor om code te gebruiken als supervisie voor cross-modale uitlijning, aangezien code inherent alle informatie bevat die nodig is om bijbehorende figuren te genereren, waardoor een nauwkeurige verbinding tussen de twee modaliteiten wordt gelegd. Specifiek ontwikkelen we ons beeld-naar-code model en dataset met een model-in-the-loop aanpak, wat resulteert in een beeld-naar-code model, FigCodifier, en de ImgCode-8.6M dataset, de grootste beeld-code dataset tot nu toe. Bovendien gebruiken we FigCodifier om nieuwe wiskundige figuren te synthetiseren en vervolgens MM-MathInstruct-3M te construeren, een hoogwaardige multimodale wiskunde-instructie fine-tuning dataset. Ten slotte presenteren we MathCoder-VL, getraind met ImgCode-8.6M voor cross-modale uitlijning en vervolgens fine-tuned op MM-MathInstruct-3M voor het oplossen van multimodale wiskundige problemen. Ons model bereikt een nieuwe open-source SOTA over alle zes metrieken. Opmerkelijk is dat het GPT-4o en Claude 3.5 Sonnet overtreft in de geometrie-probleemoplossingssubset van MathVista, met verbeteringen van 8,9% en 9,2%. De dataset en modellen zullen worden vrijgegeven op https://github.com/mathllm/MathCoder.
English
Natural language image-caption datasets, widely used for training Large
Multimodal Models, mainly focus on natural scenarios and overlook the intricate
details of mathematical figures that are critical for problem-solving,
hindering the advancement of current LMMs in multimodal mathematical reasoning.
To this end, we propose leveraging code as supervision for cross-modal
alignment, since code inherently encodes all information needed to generate
corresponding figures, establishing a precise connection between the two
modalities. Specifically, we co-develop our image-to-code model and dataset
with model-in-the-loop approach, resulting in an image-to-code model,
FigCodifier and ImgCode-8.6M dataset, the largest image-code dataset to date.
Furthermore, we utilize FigCodifier to synthesize novel mathematical figures
and then construct MM-MathInstruct-3M, a high-quality multimodal math
instruction fine-tuning dataset. Finally, we present MathCoder-VL, trained with
ImgCode-8.6M for cross-modal alignment and subsequently fine-tuned on
MM-MathInstruct-3M for multimodal math problem solving. Our model achieves a
new open-source SOTA across all six metrics. Notably, it surpasses GPT-4o and
Claude 3.5 Sonnet in the geometry problem-solving subset of MathVista,
achieving improvements of 8.9% and 9.2%. The dataset and models will be
released at https://github.com/mathllm/MathCoder.Summary
AI-Generated Summary