Abschnitt 1.5: Methoden, Analyse & Erkenntnisse aus dem Feinabstimmung von Multimodalen LLMMM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
Wir präsentieren MM1.5, eine neue Familie von multimodalen großen Sprachmodellen (MLLMs), die entwickelt wurden, um die Fähigkeiten in der textreichen Bildverarbeitung, visuellen Verweisung und Verankerung sowie der Multi-Bild-Argumentation zu verbessern. Aufbauend auf der MM1-Architektur verfolgt MM1.5 einen datenzentrierten Ansatz für das Modelltraining, der systematisch die Auswirkungen verschiedener Datengemische über den gesamten Lebenszyklus des Modelltrainings erforscht. Dies umfasst hochwertige OCR-Daten und synthetische Bildunterschriften für kontinuierliches Vortraining sowie ein optimiertes visuelles Anleitungstiming-Datengemisch für überwachtes Feintuning. Unsere Modelle reichen von 1B bis 30B Parametern, umfassen sowohl dichte als auch Mischung-von-Experten (MoE)-Varianten und zeigen, dass sorgfältige Datenaufbereitung und Trainingsstrategien auch bei kleinen Maßstäben (1B und 3B) zu einer starken Leistung führen können. Darüber hinaus führen wir zwei spezialisierte Varianten ein: MM1.5-Video, konzipiert für das Verständnis von Videos, und MM1.5-UI, maßgeschneidert für das Verständnis von mobilen Benutzeroberflächen. Durch umfangreiche empirische Studien und Ablationen bieten wir detaillierte Einblicke in die Trainingsprozesse und Entscheidungen, die unsere endgültigen Entwürfe beeinflussen, und geben wertvolle Anleitungen für zukünftige Forschung in der Entwicklung von MLLMs.