MathCoder-VL: Conectando visión y código para mejorar el razonamiento matemático multimodal
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning
May 15, 2025
Autores: Ke Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li
cs.AI
Resumen
Los conjuntos de datos de imágenes con subtítulos en lenguaje natural, ampliamente utilizados para entrenar Modelos Multimodales de Gran Escala, se centran principalmente en escenarios naturales y pasan por alto los detalles intrincados de las figuras matemáticas que son cruciales para la resolución de problemas, lo que obstaculiza el avance de los modelos actuales en el razonamiento matemático multimodal. Para abordar esto, proponemos utilizar el código como supervisión para la alineación multimodal, ya que el código codifica inherentemente toda la información necesaria para generar las figuras correspondientes, estableciendo una conexión precisa entre las dos modalidades. Específicamente, desarrollamos conjuntamente nuestro modelo de imagen a código y el conjunto de datos con un enfoque de modelo en el bucle, resultando en un modelo de imagen a código, FigCodifier, y el conjunto de datos ImgCode-8.6M, el mayor conjunto de datos de imagen-código hasta la fecha. Además, utilizamos FigCodifier para sintetizar nuevas figuras matemáticas y luego construimos MM-MathInstruct-3M, un conjunto de datos de ajuste fino de instrucciones matemáticas multimodales de alta calidad. Finalmente, presentamos MathCoder-VL, entrenado con ImgCode-8.6M para la alineación multimodal y posteriormente ajustado en MM-MathInstruct-3M para la resolución de problemas matemáticos multimodales. Nuestro modelo alcanza un nuevo estado del arte de código abierto en las seis métricas evaluadas. Notablemente, supera a GPT-4o y Claude 3.5 Sonnet en el subconjunto de resolución de problemas de geometría de MathVista, logrando mejoras del 8.9% y 9.2%, respectivamente. Los conjuntos de datos y modelos serán liberados en https://github.com/mathllm/MathCoder.
English
Natural language image-caption datasets, widely used for training Large
Multimodal Models, mainly focus on natural scenarios and overlook the intricate
details of mathematical figures that are critical for problem-solving,
hindering the advancement of current LMMs in multimodal mathematical reasoning.
To this end, we propose leveraging code as supervision for cross-modal
alignment, since code inherently encodes all information needed to generate
corresponding figures, establishing a precise connection between the two
modalities. Specifically, we co-develop our image-to-code model and dataset
with model-in-the-loop approach, resulting in an image-to-code model,
FigCodifier and ImgCode-8.6M dataset, the largest image-code dataset to date.
Furthermore, we utilize FigCodifier to synthesize novel mathematical figures
and then construct MM-MathInstruct-3M, a high-quality multimodal math
instruction fine-tuning dataset. Finally, we present MathCoder-VL, trained with
ImgCode-8.6M for cross-modal alignment and subsequently fine-tuned on
MM-MathInstruct-3M for multimodal math problem solving. Our model achieves a
new open-source SOTA across all six metrics. Notably, it surpasses GPT-4o and
Claude 3.5 Sonnet in the geometry problem-solving subset of MathVista,
achieving improvements of 8.9% and 9.2%. The dataset and models will be
released at https://github.com/mathllm/MathCoder.