Abschnitt 1.5: Methoden, Analyse & Erkenntnisse aus dem Feinabstimmung von Multimodalen LLM
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
September 30, 2024
Autoren: Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang
cs.AI
Zusammenfassung
Wir präsentieren MM1.5, eine neue Familie von multimodalen großen Sprachmodellen (MLLMs), die entwickelt wurden, um die Fähigkeiten in der textreichen Bildverarbeitung, visuellen Verweisung und Verankerung sowie der Multi-Bild-Argumentation zu verbessern. Aufbauend auf der MM1-Architektur verfolgt MM1.5 einen datenzentrierten Ansatz für das Modelltraining, der systematisch die Auswirkungen verschiedener Datengemische über den gesamten Lebenszyklus des Modelltrainings erforscht. Dies umfasst hochwertige OCR-Daten und synthetische Bildunterschriften für kontinuierliches Vortraining sowie ein optimiertes visuelles Anleitungstiming-Datengemisch für überwachtes Feintuning. Unsere Modelle reichen von 1B bis 30B Parametern, umfassen sowohl dichte als auch Mischung-von-Experten (MoE)-Varianten und zeigen, dass sorgfältige Datenaufbereitung und Trainingsstrategien auch bei kleinen Maßstäben (1B und 3B) zu einer starken Leistung führen können. Darüber hinaus führen wir zwei spezialisierte Varianten ein: MM1.5-Video, konzipiert für das Verständnis von Videos, und MM1.5-UI, maßgeschneidert für das Verständnis von mobilen Benutzeroberflächen. Durch umfangreiche empirische Studien und Ablationen bieten wir detaillierte Einblicke in die Trainingsprozesse und Entscheidungen, die unsere endgültigen Entwürfe beeinflussen, und geben wertvolle Anleitungen für zukünftige Forschung in der Entwicklung von MLLMs.
English
We present MM1.5, a new family of multimodal large language models (MLLMs)
designed to enhance capabilities in text-rich image understanding, visual
referring and grounding, and multi-image reasoning. Building upon the MM1
architecture, MM1.5 adopts a data-centric approach to model training,
systematically exploring the impact of diverse data mixtures across the entire
model training lifecycle. This includes high-quality OCR data and synthetic
captions for continual pre-training, as well as an optimized visual
instruction-tuning data mixture for supervised fine-tuning. Our models range
from 1B to 30B parameters, encompassing both dense and mixture-of-experts (MoE)
variants, and demonstrate that careful data curation and training strategies
can yield strong performance even at small scales (1B and 3B). Additionally, we
introduce two specialized variants: MM1.5-Video, designed for video
understanding, and MM1.5-UI, tailored for mobile UI understanding. Through
extensive empirical studies and ablations, we provide detailed insights into
the training processes and decisions that inform our final designs, offering
valuable guidance for future research in MLLM development.Summary
AI-Generated Summary