MathCoder-VL: Соединение зрения и кода для улучшенного мультимодального математического мышления
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning
May 15, 2025
Авторы: Ke Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li
cs.AI
Аннотация
Наборы данных с изображениями и подписями на естественном языке, широко используемые для обучения крупных мультимодальных моделей (LMM), в основном сосредоточены на естественных сценах и упускают сложные детали математических графиков, которые критически важны для решения задач, что сдерживает прогресс современных LMM в области мультимодального математического мышления. Для решения этой проблемы мы предлагаем использовать код в качестве средства для кросс-модального согласования, поскольку код по своей природе кодирует всю информацию, необходимую для генерации соответствующих графиков, устанавливая точную связь между двумя модальностями. В частности, мы совместно разрабатываем нашу модель преобразования изображений в код и набор данных с использованием подхода "модель в цикле", что приводит к созданию модели FigCodifier и набора данных ImgCode-8.6M, крупнейшего на сегодняшний день набора данных "изображение-код". Кроме того, мы используем FigCodifier для синтеза новых математических графиков и затем создаем MM-MathInstruct-3M, высококачественный набор данных для тонкой настройки мультимодальных математических инструкций. Наконец, мы представляем MathCoder-VL, обученный на ImgCode-8.6M для кросс-модального согласования и затем доработанный на MM-MathInstruct-3M для решения мультимодальных математических задач. Наша модель достигает нового открытого SOTA по всем шести метрикам. Примечательно, что она превосходит GPT-4o и Claude 3.5 Sonnet в подмножестве задач по геометрии в MathVista, демонстрируя улучшения на 8,9% и 9,2% соответственно. Наборы данных и модели будут опубликованы по адресу https://github.com/mathllm/MathCoder.
English
Natural language image-caption datasets, widely used for training Large
Multimodal Models, mainly focus on natural scenarios and overlook the intricate
details of mathematical figures that are critical for problem-solving,
hindering the advancement of current LMMs in multimodal mathematical reasoning.
To this end, we propose leveraging code as supervision for cross-modal
alignment, since code inherently encodes all information needed to generate
corresponding figures, establishing a precise connection between the two
modalities. Specifically, we co-develop our image-to-code model and dataset
with model-in-the-loop approach, resulting in an image-to-code model,
FigCodifier and ImgCode-8.6M dataset, the largest image-code dataset to date.
Furthermore, we utilize FigCodifier to synthesize novel mathematical figures
and then construct MM-MathInstruct-3M, a high-quality multimodal math
instruction fine-tuning dataset. Finally, we present MathCoder-VL, trained with
ImgCode-8.6M for cross-modal alignment and subsequently fine-tuned on
MM-MathInstruct-3M for multimodal math problem solving. Our model achieves a
new open-source SOTA across all six metrics. Notably, it surpasses GPT-4o and
Claude 3.5 Sonnet in the geometry problem-solving subset of MathVista,
achieving improvements of 8.9% and 9.2%. The dataset and models will be
released at https://github.com/mathllm/MathCoder.