MathCoder-VL: Conectando Visão e Código para Aprimorar o Raciocínio Matemático Multimodal
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning
May 15, 2025
Autores: Ke Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li
cs.AI
Resumo
Conjuntos de dados de legendagem de imagens em linguagem natural, amplamente utilizados para treinar Modelos Multimodais de Grande Escala (LMMs), concentram-se principalmente em cenários naturais e negligenciam os detalhes intrincados de figuras matemáticas que são críticos para a resolução de problemas, dificultando o avanço dos LMMs atuais no raciocínio matemático multimodal. Para isso, propomos utilizar código como supervisão para o alinhamento cross-modal, uma vez que o código codifica inerentemente todas as informações necessárias para gerar as figuras correspondentes, estabelecendo uma conexão precisa entre as duas modalidades. Especificamente, co-desenvolvemos nosso modelo de imagem para código e conjunto de dados com uma abordagem de modelo-em-loop, resultando em um modelo de imagem para código, o FigCodifier, e o conjunto de dados ImgCode-8.6M, o maior conjunto de dados de imagem-código até o momento. Além disso, utilizamos o FigCodifier para sintetizar novas figuras matemáticas e, em seguida, construímos o MM-MathInstruct-3M, um conjunto de dados de ajuste fino de instruções matemáticas multimodais de alta qualidade. Por fim, apresentamos o MathCoder-VL, treinado com o ImgCode-8.6M para alinhamento cross-modal e posteriormente ajustado no MM-MathInstruct-3M para a resolução de problemas matemáticos multimodais. Nosso modelo alcança um novo estado da arte (SOTA) de código aberto em todas as seis métricas. Notavelmente, ele supera o GPT-4o e o Claude 3.5 Sonnet no subconjunto de resolução de problemas de geometria do MathVista, alcançando melhorias de 8,9% e 9,2%. O conjunto de dados e os modelos serão liberados em https://github.com/mathllm/MathCoder.
English
Natural language image-caption datasets, widely used for training Large
Multimodal Models, mainly focus on natural scenarios and overlook the intricate
details of mathematical figures that are critical for problem-solving,
hindering the advancement of current LMMs in multimodal mathematical reasoning.
To this end, we propose leveraging code as supervision for cross-modal
alignment, since code inherently encodes all information needed to generate
corresponding figures, establishing a precise connection between the two
modalities. Specifically, we co-develop our image-to-code model and dataset
with model-in-the-loop approach, resulting in an image-to-code model,
FigCodifier and ImgCode-8.6M dataset, the largest image-code dataset to date.
Furthermore, we utilize FigCodifier to synthesize novel mathematical figures
and then construct MM-MathInstruct-3M, a high-quality multimodal math
instruction fine-tuning dataset. Finally, we present MathCoder-VL, trained with
ImgCode-8.6M for cross-modal alignment and subsequently fine-tuned on
MM-MathInstruct-3M for multimodal math problem solving. Our model achieves a
new open-source SOTA across all six metrics. Notably, it surpasses GPT-4o and
Claude 3.5 Sonnet in the geometry problem-solving subset of MathVista,
achieving improvements of 8.9% and 9.2%. The dataset and models will be
released at https://github.com/mathllm/MathCoder.