MAVIS : Réglage d'Instructions Visuelles Mathématiques
MAVIS: Mathematical Visual Instruction Tuning
July 11, 2024
Auteurs: Renrui Zhang, Xinyu Wei, Dongzhi Jiang, Yichi Zhang, Ziyu Guo, Chengzhuo Tong, Jiaming Liu, Aojun Zhou, Bin Wei, Shanghang Zhang, Peng Gao, Hongsheng Li
cs.AI
Résumé
Les modèles de langage multi-modaux de grande taille (MLLMs) ont récemment émergé comme un axe de recherche majeur dans les milieux académiques et industriels. Malgré leur compétence dans les scénarios multi-modaux généraux, leurs capacités à résoudre des problèmes mathématiques dans des contextes visuels restent insuffisamment explorées. Nous identifions trois domaines clés au sein des MLLMs nécessitant des améliorations : l'encodage visuel des diagrammes mathématiques, l'alignement diagramme-langage, et les compétences en raisonnement mathématique. Cela soulève un besoin urgent de données à grande échelle et de haute qualité, ainsi que de pipelines d'entraînement en mathématiques visuelles. Dans cet article, nous proposons MAVIS, le premier paradigme de réglage par instruction visuelle mathématique pour les MLLMs, impliquant une série de jeux de données visuels mathématiques et de MLLMs spécialisés. Ciblant les trois problèmes identifiés, MAVIS comprend trois étapes d'entraînement progressives à partir de zéro. Premièrement, nous constituons MAVIS-Caption, composé de 558K paires diagramme-légende, pour affiner un encodeur visuel spécifique aux mathématiques (CLIP-Math) via l'apprentissage contrastif, adapté pour améliorer l'encodage visuel des diagrammes. Deuxièmement, nous utilisons MAVIS-Caption pour aligner CLIP-Math avec un modèle de langage de grande taille (LLM) via une couche de projection, renforçant l'alignement vision-langage dans les domaines mathématiques. Troisièmement, nous introduisons MAVIS-Instruct, incluant 900K problèmes mathématiques visuels soigneusement collectés et annotés, qui est adopté pour finalement régler par instruction le MLLM afin de développer des compétences robustes en raisonnement mathématique. Dans MAVIS-Instruct, nous incorporons des raisonnements complets en chaîne de pensée (CoT) pour chaque problème, et minimisons la redondance textuelle, concentrant ainsi le modèle sur les éléments visuels. Les données et modèles sont disponibles à l'adresse https://github.com/ZrrSkywalker/MAVIS.
English
Multi-modal Large Language Models (MLLMs) have recently emerged as a
significant focus in academia and industry. Despite their proficiency in
general multi-modal scenarios, the mathematical problem-solving capabilities in
visual contexts remain insufficiently explored. We identify three key areas
within MLLMs that need to be improved: visual encoding of math diagrams,
diagram-language alignment, and mathematical reasoning skills. This draws forth
an urgent demand for large-scale, high-quality data and training pipelines in
visual mathematics. In this paper, we propose MAVIS, the first MAthematical
VISual instruction tuning paradigm for MLLMs, involving a series of
mathematical visual datasets and specialized MLLMs. Targeting the three issues,
MAVIS contains three progressive training stages from scratch. First, we curate
MAVIS-Caption, consisting of 558K diagram-caption pairs, to fine-tune a
math-specific vision encoder (CLIP-Math) through contrastive learning, tailored
for improved diagram visual encoding. Second, we utilize MAVIS-Caption to align
the CLIP-Math with a large language model (LLM) by a projection layer,
enhancing vision-language alignment in mathematical domains. Third, we
introduce MAVIS-Instruct, including 900K meticulously collected and annotated
visual math problems, which is adopted to finally instruct-tune the MLLM for
robust mathematical reasoning skills. In MAVIS-Instruct, we incorporate
complete chain-of-thought (CoT) rationales for each problem, and minimize
textual redundancy, thereby concentrating the model towards the visual
elements. Data and Models are released at https://github.com/ZrrSkywalker/MAVISSummary
AI-Generated Summary