Abschnitt 1.5: Methoden, Analyse & Erkenntnisse aus dem Feinabstimmung von Multimodalen LLM

papers.abstract

Wir präsentieren MM1.5, eine neue Familie von multimodalen großen Sprachmodellen (MLLMs), die entwickelt wurden, um die Fähigkeiten in der textreichen Bildverarbeitung, visuellen Verweisung und Verankerung sowie der Multi-Bild-Argumentation zu verbessern. Aufbauend auf der MM1-Architektur verfolgt MM1.5 einen datenzentrierten Ansatz für das Modelltraining, der systematisch die Auswirkungen verschiedener Datengemische über den gesamten Lebenszyklus des Modelltrainings erforscht. Dies umfasst hochwertige OCR-Daten und synthetische Bildunterschriften für kontinuierliches Vortraining sowie ein optimiertes visuelles Anleitungstiming-Datengemisch für überwachtes Feintuning. Unsere Modelle reichen von 1B bis 30B Parametern, umfassen sowohl dichte als auch Mischung-von-Experten (MoE)-Varianten und zeigen, dass sorgfältige Datenaufbereitung und Trainingsstrategien auch bei kleinen Maßstäben (1B und 3B) zu einer starken Leistung führen können. Darüber hinaus führen wir zwei spezialisierte Varianten ein: MM1.5-Video, konzipiert für das Verständnis von Videos, und MM1.5-UI, maßgeschneidert für das Verständnis von mobilen Benutzeroberflächen. Durch umfangreiche empirische Studien und Ablationen bieten wir detaillierte Einblicke in die Trainingsprozesse und Entscheidungen, die unsere endgültigen Entwürfe beeinflussen, und geben wertvolle Anleitungen für zukünftige Forschung in der Entwicklung von MLLMs.

English

We present MM1.5, a new family of multimodal large language models (MLLMs) designed to enhance capabilities in text-rich image understanding, visual referring and grounding, and multi-image reasoning. Building upon the MM1 architecture, MM1.5 adopts a data-centric approach to model training, systematically exploring the impact of diverse data mixtures across the entire model training lifecycle. This includes high-quality OCR data and synthetic captions for continual pre-training, as well as an optimized visual instruction-tuning data mixture for supervised fine-tuning. Our models range from 1B to 30B parameters, encompassing both dense and mixture-of-experts (MoE) variants, and demonstrate that careful data curation and training strategies can yield strong performance even at small scales (1B and 3B). Additionally, we introduce two specialized variants: MM1.5-Video, designed for video understanding, and MM1.5-UI, tailored for mobile UI understanding. Through extensive empirical studies and ablations, we provide detailed insights into the training processes and decisions that inform our final designs, offering valuable guidance for future research in MLLM development.

Abschnitt 1.5: Methoden, Analyse & Erkenntnisse aus dem Feinabstimmung von Multimodalen LLM

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning

papers.abstract

Support