MM1.5: Metodi, Analisi e Approfondimenti dal Fine-tuning Multimodale di LLM
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
September 30, 2024
Autori: Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang
cs.AI
Abstract
Presentiamo MM1.5, una nuova famiglia di modelli di linguaggio multimodali di grandi dimensioni (MLLMs) progettati per potenziare le capacità nella comprensione delle immagini ricche di testo, nel riferimento e ancoraggio visuale e nel ragionamento multi-immagine. Basandosi sull'architettura MM1, MM1.5 adotta un approccio centrato sui dati per l'addestramento del modello, esplorando sistematicamente l'impatto di diverse combinazioni di dati lungo l'intero ciclo di addestramento del modello. Ciò include dati OCR di alta qualità e didascalie sintetiche per il pre-addestramento continuo, nonché una combinazione ottimizzata di dati per il raffinamento supervisionato delle istruzioni visive. I nostri modelli vanno da 1B a 30B di parametri, includendo varianti dense e di misto di esperti (MoE), e dimostrano che una accurata cura dei dati e strategie di addestramento possono portare a ottime prestazioni anche a piccola scala (1B e 3B). Inoltre, introduciamo due varianti specializzate: MM1.5-Video, progettato per la comprensione dei video, e MM1.5-UI, adattato per la comprensione dell'interfaccia utente mobile. Attraverso ampi studi empirici e ablation, forniamo dettagliate intuizioni sui processi di addestramento e sulle decisioni che hanno guidato i nostri design finali, offrendo preziose indicazioni per la ricerca futura nello sviluppo di MLLM.
English
We present MM1.5, a new family of multimodal large language models (MLLMs)
designed to enhance capabilities in text-rich image understanding, visual
referring and grounding, and multi-image reasoning. Building upon the MM1
architecture, MM1.5 adopts a data-centric approach to model training,
systematically exploring the impact of diverse data mixtures across the entire
model training lifecycle. This includes high-quality OCR data and synthetic
captions for continual pre-training, as well as an optimized visual
instruction-tuning data mixture for supervised fine-tuning. Our models range
from 1B to 30B parameters, encompassing both dense and mixture-of-experts (MoE)
variants, and demonstrate that careful data curation and training strategies
can yield strong performance even at small scales (1B and 3B). Additionally, we
introduce two specialized variants: MM1.5-Video, designed for video
understanding, and MM1.5-UI, tailored for mobile UI understanding. Through
extensive empirical studies and ablations, we provide detailed insights into
the training processes and decisions that inform our final designs, offering
valuable guidance for future research in MLLM development.