MAVIS: Ajuste de Instrucción Visual Matemática.
MAVIS: Mathematical Visual Instruction Tuning
July 11, 2024
Autores: Renrui Zhang, Xinyu Wei, Dongzhi Jiang, Yichi Zhang, Ziyu Guo, Chengzhuo Tong, Jiaming Liu, Aojun Zhou, Bin Wei, Shanghang Zhang, Peng Gao, Hongsheng Li
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) han surgido recientemente como un enfoque significativo en el ámbito académico e industrial. A pesar de su eficacia en escenarios multimodales generales, las capacidades de resolución de problemas matemáticos en contextos visuales siguen siendo insuficientemente exploradas. Identificamos tres áreas clave dentro de los MLLMs que necesitan ser mejoradas: la codificación visual de diagramas matemáticos, el alineamiento diagrama-lenguaje y las habilidades de razonamiento matemático. Esto plantea una demanda urgente de datos a gran escala y de alta calidad, así como de tuberías de entrenamiento en matemáticas visuales. En este documento, proponemos MAVIS, el primer paradigma de ajuste de instrucción visual matemática para MLLMs, que implica una serie de conjuntos de datos visuales matemáticos y MLLMs especializados. Dirigiéndonos a los tres problemas, MAVIS consta de tres etapas progresivas de entrenamiento desde cero. En primer lugar, creamos MAVIS-Caption, que consta de 558K pares de diagramas y subtítulos, para ajustar finamente un codificador de visión específico para matemáticas (CLIP-Math) a través de aprendizaje por contraste, diseñado para mejorar la codificación visual de diagramas. En segundo lugar, utilizamos MAVIS-Caption para alinear el CLIP-Math con un modelo de lenguaje de gran escala (LLM) mediante una capa de proyección, mejorando el alineamiento visión-lenguaje en dominios matemáticos. En tercer lugar, introducimos MAVIS-Instruct, que incluye 900K problemas matemáticos visuales meticulosamente recopilados y anotados, los cuales se adoptan para ajustar finalmente la instrucción del MLLM para habilidades de razonamiento matemático robustas. En MAVIS-Instruct, incorporamos razonamientos completos de cadena de pensamiento (CoT) para cada problema, y minimizamos la redundancia textual, concentrando así el modelo hacia los elementos visuales. Los Datos y Modelos se encuentran disponibles en https://github.com/ZrrSkywalker/MAVIS
English
Multi-modal Large Language Models (MLLMs) have recently emerged as a
significant focus in academia and industry. Despite their proficiency in
general multi-modal scenarios, the mathematical problem-solving capabilities in
visual contexts remain insufficiently explored. We identify three key areas
within MLLMs that need to be improved: visual encoding of math diagrams,
diagram-language alignment, and mathematical reasoning skills. This draws forth
an urgent demand for large-scale, high-quality data and training pipelines in
visual mathematics. In this paper, we propose MAVIS, the first MAthematical
VISual instruction tuning paradigm for MLLMs, involving a series of
mathematical visual datasets and specialized MLLMs. Targeting the three issues,
MAVIS contains three progressive training stages from scratch. First, we curate
MAVIS-Caption, consisting of 558K diagram-caption pairs, to fine-tune a
math-specific vision encoder (CLIP-Math) through contrastive learning, tailored
for improved diagram visual encoding. Second, we utilize MAVIS-Caption to align
the CLIP-Math with a large language model (LLM) by a projection layer,
enhancing vision-language alignment in mathematical domains. Third, we
introduce MAVIS-Instruct, including 900K meticulously collected and annotated
visual math problems, which is adopted to finally instruct-tune the MLLM for
robust mathematical reasoning skills. In MAVIS-Instruct, we incorporate
complete chain-of-thought (CoT) rationales for each problem, and minimize
textual redundancy, thereby concentrating the model towards the visual
elements. Data and Models are released at https://github.com/ZrrSkywalker/MAVISSummary
AI-Generated Summary