MM1: Methoden, Analyse & Erkenntnisse aus der multimodalen LLM-Vortrainierung
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
March 14, 2024
Autoren: Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang
cs.AI
Zusammenfassung
In dieser Arbeit diskutieren wir den Aufbau leistungsfähiger Multimodaler Großer Sprachmodelle (MLLMs). Insbesondere untersuchen wir die Bedeutung verschiedener Architekturkomponenten und Datenauswahlen. Durch sorgfältige und umfassende Ablationen des Bildencoders, des Verbindungsstücks zwischen Bild und Sprache und verschiedener Vor-Trainingsdatenauswahlen haben wir mehrere entscheidende Design-Lektionen identifiziert. Zum Beispiel zeigen wir, dass für das groß angelegte multimodale Vor-Training die sorgfältige Mischung von Bildunterschrift, abwechselndem Bild-Text und nur-Text-Daten entscheidend ist, um Spitzenleistungen bei Few-Shot-Ergebnissen über mehrere Benchmarks im Vergleich zu anderen veröffentlichten Vor-Trainingsergebnissen zu erzielen. Darüber hinaus zeigen wir, dass der Bildencoder zusammen mit der Bildauflösung und der Anzahl der Bildtokens einen erheblichen Einfluss hat, während das Design des Verbindungsstücks zwischen Bild und Sprache vergleichsweise von geringer Bedeutung ist. Durch Skalierung des vorgestellten Rezepts bauen wir MM1, eine Familie von multimodalen Modellen mit bis zu 30 Milliarden Parametern, bestehend aus dichten Modellen und Varianten von Mischungen von Experten (MoE), die im Vor-Training Metriken auf dem neuesten Stand der Technik sind und nach überwachtem Feintuning auf einer Reihe etablierter multimodaler Benchmarks eine wettbewerbsfähige Leistung erzielen. Dank des groß angelegten Vor-Trainings weist MM1 ansprechende Eigenschaften auf, wie verbessertes kontextbezogenes Lernen und mehrere Bildbetrachtungen, die eine Few-Shot-Ketten-Denk-Anregung ermöglichen.
English
In this work, we discuss building performant Multimodal Large Language Models
(MLLMs). In particular, we study the importance of various architecture
components and data choices. Through careful and comprehensive ablations of the
image encoder, the vision language connector, and various pre-training data
choices, we identified several crucial design lessons. For example, we
demonstrate that for large-scale multimodal pre-training using a careful mix of
image-caption, interleaved image-text, and text-only data is crucial for
achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks,
compared to other published pre-training results. Further, we show that the
image encoder together with image resolution and the image token count has
substantial impact, while the vision-language connector design is of
comparatively negligible importance. By scaling up the presented recipe, we
build MM1, a family of multimodal models up to 30B parameters, consisting of
both dense models and mixture-of-experts (MoE) variants, that are SOTA in
pre-training metrics and achieve competitive performance after supervised
fine-tuning on a range of established multimodal benchmarks. Thanks to
large-scale pre-training, MM1 enjoys appealing properties such as enhanced
in-context learning, and multi-image reasoning, enabling few-shot
chain-of-thought prompting.Summary
AI-Generated Summary