MM1.5: Methoden, Analyse & Inzichten uit Multimodale LLM Fine-tuning
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
September 30, 2024
Auteurs: Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang
cs.AI
Samenvatting
We presenteren MM1.5, een nieuwe familie van multimodale grote taalmodellen (MLLM's) die zijn ontworpen om de mogelijkheden op het gebied van tekstrijke beeldbegrip, visuele verwijzing en verankering, en multi-beeldredenering te verbeteren. Voortbouwend op de MM1-architectuur, neemt MM1.5 een op data gerichte benadering aan voor modeltraining, waarbij systematisch de impact van diverse datamixen gedurende de gehele modeltrainingslevenscyclus wordt onderzocht. Dit omvat hoogwaardige OCR-gegevens en synthetische bijschriften voor voortdurende voorafgaande training, evenals een geoptimaliseerde visuele instructie-afstemmingsdatamix voor begeleide fijnafstemming. Onze modellen variëren van 1B tot 30B parameters, waarbij zowel dichte als mengsel-van-experts (MoE) varianten zijn opgenomen, en laten zien dat zorgvuldige gegevenscuratie en trainingsstrategieën zelfs bij kleine schalen (1B en 3B) sterke prestaties kunnen opleveren. Daarnaast introduceren we twee gespecialiseerde varianten: MM1.5-Video, ontworpen voor videobegrip, en MM1.5-UI, op maat gemaakt voor begrip van mobiele gebruikersinterfaces. Via uitgebreide empirische studies en ablaties bieden we gedetailleerde inzichten in de trainingsprocessen en beslissingen die onze uiteindelijke ontwerpen informeren, en bieden waardevolle richtlijnen voor toekomstig onderzoek in de ontwikkeling van MLLM's.
English
We present MM1.5, a new family of multimodal large language models (MLLMs)
designed to enhance capabilities in text-rich image understanding, visual
referring and grounding, and multi-image reasoning. Building upon the MM1
architecture, MM1.5 adopts a data-centric approach to model training,
systematically exploring the impact of diverse data mixtures across the entire
model training lifecycle. This includes high-quality OCR data and synthetic
captions for continual pre-training, as well as an optimized visual
instruction-tuning data mixture for supervised fine-tuning. Our models range
from 1B to 30B parameters, encompassing both dense and mixture-of-experts (MoE)
variants, and demonstrate that careful data curation and training strategies
can yield strong performance even at small scales (1B and 3B). Additionally, we
introduce two specialized variants: MM1.5-Video, designed for video
understanding, and MM1.5-UI, tailored for mobile UI understanding. Through
extensive empirical studies and ablations, we provide detailed insights into
the training processes and decisions that inform our final designs, offering
valuable guidance for future research in MLLM development.Summary
AI-Generated Summary