MathCoder-VL : Relier la vision et le code pour un raisonnement mathématique multimodal amélioré
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning
May 15, 2025
Auteurs: Ke Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li
cs.AI
Résumé
Les ensembles de données de légendes d'images en langage naturel, largement utilisés pour l'entraînement des grands modèles multimodaux, se concentrent principalement sur des scénarios naturels et négligent les détails complexes des figures mathématiques, pourtant essentiels pour la résolution de problèmes, ce qui freine les progrès des modèles multimodaux actuels dans le raisonnement mathématique multimodal. Pour pallier cela, nous proposons d'utiliser le code comme supervision pour l'alignement intermodal, car le code encode intrinsèquement toutes les informations nécessaires à la génération des figures correspondantes, établissant ainsi une connexion précise entre les deux modalités. Plus précisément, nous co-développons notre modèle image-à-code et notre ensemble de données avec une approche de modèle-en-boucle, aboutissant à un modèle image-à-code, FigCodifier, et à l'ensemble de données ImgCode-8.6M, le plus grand ensemble de données image-code à ce jour. En outre, nous utilisons FigCodifier pour synthétiser de nouvelles figures mathématiques, puis construisons MM-MathInstruct-3M, un ensemble de données de fine-tuning de haute qualité pour les instructions mathématiques multimodales. Enfin, nous présentons MathCoder-VL, entraîné avec ImgCode-8.6M pour l'alignement intermodal, puis fine-tuné sur MM-MathInstruct-3M pour la résolution de problèmes mathématiques multimodaux. Notre modèle atteint un nouvel état de l'art open-source sur les six métriques. Notamment, il surpasse GPT-4o et Claude 3.5 Sonnet dans le sous-ensemble de résolution de problèmes de géométrie de MathVista, avec des améliorations de 8,9 % et 9,2 %. Les ensembles de données et les modèles seront disponibles sur https://github.com/mathllm/MathCoder.
English
Natural language image-caption datasets, widely used for training Large
Multimodal Models, mainly focus on natural scenarios and overlook the intricate
details of mathematical figures that are critical for problem-solving,
hindering the advancement of current LMMs in multimodal mathematical reasoning.
To this end, we propose leveraging code as supervision for cross-modal
alignment, since code inherently encodes all information needed to generate
corresponding figures, establishing a precise connection between the two
modalities. Specifically, we co-develop our image-to-code model and dataset
with model-in-the-loop approach, resulting in an image-to-code model,
FigCodifier and ImgCode-8.6M dataset, the largest image-code dataset to date.
Furthermore, we utilize FigCodifier to synthesize novel mathematical figures
and then construct MM-MathInstruct-3M, a high-quality multimodal math
instruction fine-tuning dataset. Finally, we present MathCoder-VL, trained with
ImgCode-8.6M for cross-modal alignment and subsequently fine-tuned on
MM-MathInstruct-3M for multimodal math problem solving. Our model achieves a
new open-source SOTA across all six metrics. Notably, it surpasses GPT-4o and
Claude 3.5 Sonnet in the geometry problem-solving subset of MathVista,
achieving improvements of 8.9% and 9.2%. The dataset and models will be
released at https://github.com/mathllm/MathCoder.