ChatPaper.aiChatPaper

MAVIS: Математическая Визуальная Настройка Инструкций

MAVIS: Mathematical Visual Instruction Tuning

July 11, 2024
Авторы: Renrui Zhang, Xinyu Wei, Dongzhi Jiang, Yichi Zhang, Ziyu Guo, Chengzhuo Tong, Jiaming Liu, Aojun Zhou, Bin Wei, Shanghang Zhang, Peng Gao, Hongsheng Li
cs.AI

Аннотация

Многомодальные крупные языковые модели (MLLM) недавно стали значительным объектом внимания в академической и промышленной сферах. Несмотря на их профессионализм в общих многомодальных сценариях, математические способности в визуальных контекстах остаются недостаточно исследованными. Мы выделяем три ключевые области в MLLM, которые требуют улучшения: визуальное кодирование математических диаграмм, согласование диаграмм и языка, а также математические навыки рассуждения. Это подчеркивает наличие настоятельной потребности в масштабных, высококачественных данных и процессах обучения в области визуальной математики. В данной статье мы предлагаем MAVIS, первую парадигму настройки математического визуального обучения для MLLM, включающую серию математических визуальных наборов данных и специализированные MLLM. Направленная на решение трех проблем, MAVIS включает три последовательных этапа обучения с нуля. Вначале мы составляем MAVIS-Caption, включающий 558 тыс. пар диаграмм-подписей, для тонкой настройки математического видео-кодера (CLIP-Math) с помощью контрастного обучения, специально разработанного для улучшения визуального кодирования диаграмм. Затем мы используем MAVIS-Caption для согласования CLIP-Math с крупной языковой моделью (LLM) с помощью слоя проекции, улучшая согласование визуального и языкового контента в математических областях. Наконец, мы вводим MAVIS-Instruct, включающий 900 тыс. тщательно собранных и аннотированных визуальных математических задач, которые используются для окончательной настройки MLLM на навыки устойчивого математического рассуждения. В MAVIS-Instruct мы включаем полные цепочки рассуждений (CoT) для каждой задачи и минимизируем текстовую избыточность, тем самым сосредотачивая модель на визуальных элементах. Данные и модели доступны по ссылке https://github.com/ZrrSkywalker/MAVIS
English
Multi-modal Large Language Models (MLLMs) have recently emerged as a significant focus in academia and industry. Despite their proficiency in general multi-modal scenarios, the mathematical problem-solving capabilities in visual contexts remain insufficiently explored. We identify three key areas within MLLMs that need to be improved: visual encoding of math diagrams, diagram-language alignment, and mathematical reasoning skills. This draws forth an urgent demand for large-scale, high-quality data and training pipelines in visual mathematics. In this paper, we propose MAVIS, the first MAthematical VISual instruction tuning paradigm for MLLMs, involving a series of mathematical visual datasets and specialized MLLMs. Targeting the three issues, MAVIS contains three progressive training stages from scratch. First, we curate MAVIS-Caption, consisting of 558K diagram-caption pairs, to fine-tune a math-specific vision encoder (CLIP-Math) through contrastive learning, tailored for improved diagram visual encoding. Second, we utilize MAVIS-Caption to align the CLIP-Math with a large language model (LLM) by a projection layer, enhancing vision-language alignment in mathematical domains. Third, we introduce MAVIS-Instruct, including 900K meticulously collected and annotated visual math problems, which is adopted to finally instruct-tune the MLLM for robust mathematical reasoning skills. In MAVIS-Instruct, we incorporate complete chain-of-thought (CoT) rationales for each problem, and minimize textual redundancy, thereby concentrating the model towards the visual elements. Data and Models are released at https://github.com/ZrrSkywalker/MAVIS

Summary

AI-Generated Summary

PDF343November 28, 2024