MM1.5: Métodos, Análisis e Ideas de Ajuste Fino Multimodal de LLM
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
September 30, 2024
Autores: Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang
cs.AI
Resumen
Presentamos MM1.5, una nueva familia de modelos de lenguaje multimodales grandes (MLLMs) diseñados para mejorar las capacidades en la comprensión de imágenes ricas en texto, la referencia y fundamentación visual, y el razonamiento multiimagen. Basándose en la arquitectura MM1, MM1.5 adopta un enfoque centrado en los datos para el entrenamiento del modelo, explorando sistemáticamente el impacto de diversas combinaciones de datos a lo largo de todo el ciclo de entrenamiento del modelo. Esto incluye datos de OCR de alta calidad y leyendas sintéticas para el preentrenamiento continuo, así como una mezcla de datos optimizada para el ajuste de instrucciones visuales en el ajuste fino supervisado. Nuestros modelos van desde 1B hasta 30B de parámetros, abarcando tanto variantes densas como de mezcla de expertos (MoE), y demuestran que una cuidadosa curación de datos y estrategias de entrenamiento pueden producir un rendimiento sólido incluso en escalas pequeñas (1B y 3B). Además, presentamos dos variantes especializadas: MM1.5-Video, diseñada para la comprensión de videos, y MM1.5-UI, adaptada para la comprensión de interfaces de usuario móviles. A través de extensos estudios empíricos y abstracciones, ofrecemos una visión detallada de los procesos de entrenamiento y decisiones que informan nuestros diseños finales, brindando orientación valiosa para futuras investigaciones en el desarrollo de MLLMs.
English
We present MM1.5, a new family of multimodal large language models (MLLMs)
designed to enhance capabilities in text-rich image understanding, visual
referring and grounding, and multi-image reasoning. Building upon the MM1
architecture, MM1.5 adopts a data-centric approach to model training,
systematically exploring the impact of diverse data mixtures across the entire
model training lifecycle. This includes high-quality OCR data and synthetic
captions for continual pre-training, as well as an optimized visual
instruction-tuning data mixture for supervised fine-tuning. Our models range
from 1B to 30B parameters, encompassing both dense and mixture-of-experts (MoE)
variants, and demonstrate that careful data curation and training strategies
can yield strong performance even at small scales (1B and 3B). Additionally, we
introduce two specialized variants: MM1.5-Video, designed for video
understanding, and MM1.5-UI, tailored for mobile UI understanding. Through
extensive empirical studies and ablations, we provide detailed insights into
the training processes and decisions that inform our final designs, offering
valuable guidance for future research in MLLM development.Summary
AI-Generated Summary