ChatPaper.aiChatPaper

MAVIS : Réglage d'Instructions Visuelles Mathématiques

MAVIS: Mathematical Visual Instruction Tuning

July 11, 2024
Auteurs: Renrui Zhang, Xinyu Wei, Dongzhi Jiang, Yichi Zhang, Ziyu Guo, Chengzhuo Tong, Jiaming Liu, Aojun Zhou, Bin Wei, Shanghang Zhang, Peng Gao, Hongsheng Li
cs.AI

Résumé

Les modèles de langage multi-modaux de grande taille (MLLMs) ont récemment émergé comme un axe de recherche majeur dans les milieux académiques et industriels. Malgré leur compétence dans les scénarios multi-modaux généraux, leurs capacités à résoudre des problèmes mathématiques dans des contextes visuels restent insuffisamment explorées. Nous identifions trois domaines clés au sein des MLLMs nécessitant des améliorations : l'encodage visuel des diagrammes mathématiques, l'alignement diagramme-langage, et les compétences en raisonnement mathématique. Cela soulève un besoin urgent de données à grande échelle et de haute qualité, ainsi que de pipelines d'entraînement en mathématiques visuelles. Dans cet article, nous proposons MAVIS, le premier paradigme de réglage par instruction visuelle mathématique pour les MLLMs, impliquant une série de jeux de données visuels mathématiques et de MLLMs spécialisés. Ciblant les trois problèmes identifiés, MAVIS comprend trois étapes d'entraînement progressives à partir de zéro. Premièrement, nous constituons MAVIS-Caption, composé de 558K paires diagramme-légende, pour affiner un encodeur visuel spécifique aux mathématiques (CLIP-Math) via l'apprentissage contrastif, adapté pour améliorer l'encodage visuel des diagrammes. Deuxièmement, nous utilisons MAVIS-Caption pour aligner CLIP-Math avec un modèle de langage de grande taille (LLM) via une couche de projection, renforçant l'alignement vision-langage dans les domaines mathématiques. Troisièmement, nous introduisons MAVIS-Instruct, incluant 900K problèmes mathématiques visuels soigneusement collectés et annotés, qui est adopté pour finalement régler par instruction le MLLM afin de développer des compétences robustes en raisonnement mathématique. Dans MAVIS-Instruct, nous incorporons des raisonnements complets en chaîne de pensée (CoT) pour chaque problème, et minimisons la redondance textuelle, concentrant ainsi le modèle sur les éléments visuels. Les données et modèles sont disponibles à l'adresse https://github.com/ZrrSkywalker/MAVIS.
English
Multi-modal Large Language Models (MLLMs) have recently emerged as a significant focus in academia and industry. Despite their proficiency in general multi-modal scenarios, the mathematical problem-solving capabilities in visual contexts remain insufficiently explored. We identify three key areas within MLLMs that need to be improved: visual encoding of math diagrams, diagram-language alignment, and mathematical reasoning skills. This draws forth an urgent demand for large-scale, high-quality data and training pipelines in visual mathematics. In this paper, we propose MAVIS, the first MAthematical VISual instruction tuning paradigm for MLLMs, involving a series of mathematical visual datasets and specialized MLLMs. Targeting the three issues, MAVIS contains three progressive training stages from scratch. First, we curate MAVIS-Caption, consisting of 558K diagram-caption pairs, to fine-tune a math-specific vision encoder (CLIP-Math) through contrastive learning, tailored for improved diagram visual encoding. Second, we utilize MAVIS-Caption to align the CLIP-Math with a large language model (LLM) by a projection layer, enhancing vision-language alignment in mathematical domains. Third, we introduce MAVIS-Instruct, including 900K meticulously collected and annotated visual math problems, which is adopted to finally instruct-tune the MLLM for robust mathematical reasoning skills. In MAVIS-Instruct, we incorporate complete chain-of-thought (CoT) rationales for each problem, and minimize textual redundancy, thereby concentrating the model towards the visual elements. Data and Models are released at https://github.com/ZrrSkywalker/MAVIS

Summary

AI-Generated Summary

PDF343November 28, 2024