MAVIS: Ajuste de Instrucción Visual Matemática.

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) han surgido recientemente como un enfoque significativo en el ámbito académico e industrial. A pesar de su eficacia en escenarios multimodales generales, las capacidades de resolución de problemas matemáticos en contextos visuales siguen siendo insuficientemente exploradas. Identificamos tres áreas clave dentro de los MLLMs que necesitan ser mejoradas: la codificación visual de diagramas matemáticos, el alineamiento diagrama-lenguaje y las habilidades de razonamiento matemático. Esto plantea una demanda urgente de datos a gran escala y de alta calidad, así como de tuberías de entrenamiento en matemáticas visuales. En este documento, proponemos MAVIS, el primer paradigma de ajuste de instrucción visual matemática para MLLMs, que implica una serie de conjuntos de datos visuales matemáticos y MLLMs especializados. Dirigiéndonos a los tres problemas, MAVIS consta de tres etapas progresivas de entrenamiento desde cero. En primer lugar, creamos MAVIS-Caption, que consta de 558K pares de diagramas y subtítulos, para ajustar finamente un codificador de visión específico para matemáticas (CLIP-Math) a través de aprendizaje por contraste, diseñado para mejorar la codificación visual de diagramas. En segundo lugar, utilizamos MAVIS-Caption para alinear el CLIP-Math con un modelo de lenguaje de gran escala (LLM) mediante una capa de proyección, mejorando el alineamiento visión-lenguaje en dominios matemáticos. En tercer lugar, introducimos MAVIS-Instruct, que incluye 900K problemas matemáticos visuales meticulosamente recopilados y anotados, los cuales se adoptan para ajustar finalmente la instrucción del MLLM para habilidades de razonamiento matemático robustas. En MAVIS-Instruct, incorporamos razonamientos completos de cadena de pensamiento (CoT) para cada problema, y minimizamos la redundancia textual, concentrando así el modelo hacia los elementos visuales. Los Datos y Modelos se encuentran disponibles en https://github.com/ZrrSkywalker/MAVIS

English

Multi-modal Large Language Models (MLLMs) have recently emerged as a significant focus in academia and industry. Despite their proficiency in general multi-modal scenarios, the mathematical problem-solving capabilities in visual contexts remain insufficiently explored. We identify three key areas within MLLMs that need to be improved: visual encoding of math diagrams, diagram-language alignment, and mathematical reasoning skills. This draws forth an urgent demand for large-scale, high-quality data and training pipelines in visual mathematics. In this paper, we propose MAVIS, the first MAthematical VISual instruction tuning paradigm for MLLMs, involving a series of mathematical visual datasets and specialized MLLMs. Targeting the three issues, MAVIS contains three progressive training stages from scratch. First, we curate MAVIS-Caption, consisting of 558K diagram-caption pairs, to fine-tune a math-specific vision encoder (CLIP-Math) through contrastive learning, tailored for improved diagram visual encoding. Second, we utilize MAVIS-Caption to align the CLIP-Math with a large language model (LLM) by a projection layer, enhancing vision-language alignment in mathematical domains. Third, we introduce MAVIS-Instruct, including 900K meticulously collected and annotated visual math problems, which is adopted to finally instruct-tune the MLLM for robust mathematical reasoning skills. In MAVIS-Instruct, we incorporate complete chain-of-thought (CoT) rationales for each problem, and minimize textual redundancy, thereby concentrating the model towards the visual elements. Data and Models are released at https://github.com/ZrrSkywalker/MAVIS

MAVIS: Ajuste de Instrucción Visual Matemática.

MAVIS: Mathematical Visual Instruction Tuning

Resumen

Support