MAVIS: Sintonizzazione Visiva per Istruzioni Matematiche
MAVIS: Mathematical Visual Instruction Tuning
July 11, 2024
Autori: Renrui Zhang, Xinyu Wei, Dongzhi Jiang, Yichi Zhang, Ziyu Guo, Chengzhuo Tong, Jiaming Liu, Aojun Zhou, Bin Wei, Shanghang Zhang, Peng Gao, Hongsheng Li
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) sono recentemente emersi come un focus significativo in ambito accademico e industriale. Nonostante la loro competenza in scenari multimodali generali, le capacità di risoluzione di problemi matematici in contesti visivi rimangono insufficientemente esplorate. Identifichiamo tre aree chiave all'interno degli MLLMs che necessitano di miglioramento: la codifica visiva dei diagrammi matematici, l'allineamento diagramma-linguaggio e le abilità di ragionamento matematico. Ciò evidenzia una pressante necessità di dati su larga scala e di alta qualità, nonché di pipeline di addestramento per la matematica visiva. In questo articolo, proponiamo MAVIS, il primo paradigma di sintonizzazione su istruzioni visive matematiche per MLLMs, che comprende una serie di dataset visivi matematici e MLLMs specializzati. Mirando alle tre problematiche, MAVIS contiene tre fasi progressive di addestramento partendo da zero. In primo luogo, curiamo MAVIS-Caption, composto da 558K coppie diagramma-didascalia, per affinare un encoder visivo specifico per la matematica (CLIP-Math) attraverso l'apprendimento contrastivo, ottimizzato per una migliore codifica visiva dei diagrammi. In secondo luogo, utilizziamo MAVIS-Caption per allineare CLIP-Math con un modello linguistico di grande dimensione (LLM) mediante uno strato di proiezione, migliorando l'allineamento visione-linguaggio nei domini matematici. In terzo luogo, introduciamo MAVIS-Instruct, che include 900K problemi matematici visivi accuratamente raccolti e annotati, adottato per sintonizzare infine l'MLLM su istruzioni per abilità robuste di ragionamento matematico. In MAVIS-Instruct, incorporiamo razionalità complete a catena di pensiero (CoT) per ogni problema e minimizziamo la ridondanza testuale, concentrando così il modello sugli elementi visivi. Dati e modelli sono rilasciati su https://github.com/ZrrSkywalker/MAVIS.
English
Multi-modal Large Language Models (MLLMs) have recently emerged as a
significant focus in academia and industry. Despite their proficiency in
general multi-modal scenarios, the mathematical problem-solving capabilities in
visual contexts remain insufficiently explored. We identify three key areas
within MLLMs that need to be improved: visual encoding of math diagrams,
diagram-language alignment, and mathematical reasoning skills. This draws forth
an urgent demand for large-scale, high-quality data and training pipelines in
visual mathematics. In this paper, we propose MAVIS, the first MAthematical
VISual instruction tuning paradigm for MLLMs, involving a series of
mathematical visual datasets and specialized MLLMs. Targeting the three issues,
MAVIS contains three progressive training stages from scratch. First, we curate
MAVIS-Caption, consisting of 558K diagram-caption pairs, to fine-tune a
math-specific vision encoder (CLIP-Math) through contrastive learning, tailored
for improved diagram visual encoding. Second, we utilize MAVIS-Caption to align
the CLIP-Math with a large language model (LLM) by a projection layer,
enhancing vision-language alignment in mathematical domains. Third, we
introduce MAVIS-Instruct, including 900K meticulously collected and annotated
visual math problems, which is adopted to finally instruct-tune the MLLM for
robust mathematical reasoning skills. In MAVIS-Instruct, we incorporate
complete chain-of-thought (CoT) rationales for each problem, and minimize
textual redundancy, thereby concentrating the model towards the visual
elements. Data and Models are released at https://github.com/ZrrSkywalker/MAVIS