Jenseits des Sprachmodellierens: Eine Erkundung multimodalen Vorabtrainings
Beyond Language Modeling: An Exploration of Multimodal Pretraining
March 3, 2026
Autoren: Shengbang Tong, David Fan, John Nguyen, Ellis Brown, Gaoyue Zhou, Shengyi Qian, Boyang Zheng, Théophane Vallaeys, Junlin Han, Rob Fergus, Naila Murray, Marjan Ghazvininejad, Mike Lewis, Nicolas Ballas, Amir Bar, Michael Rabbat, Jakob Verbeek, Luke Zettlemoyer, Koustuv Sinha, Yann LeCun, Saining Xie
cs.AI
Zusammenfassung
Die visuelle Welt bietet eine entscheidende Achse, um Foundation-Modelle über Sprache hinaus weiterzuentwickeln. Trotz wachsendem Interesse in diese Richtung bleibt der Gestaltungsraum für native multimodale Modelle undurchsichtig. Wir schaffen empirische Klarheit durch kontrollierte Pretraining-Experimente von Grund auf, die die Faktoren isolieren, die multimodales Pretraining bestimmen, ohne Beeinflussung durch Sprach-Pretraining. Wir adaptieren den Transfusion-Rahmen, der Next-Token-Prediction für Sprache und Diffusion für Vision verwendet, um mit diversen Daten zu trainieren, einschließlich Text, Video, Bild-Text-Paaren und sogar aktionsbedingten Videos. Unsere Experimente ergeben vier zentrale Erkenntnisse: (i) Representation Autoencoder (RAE) bietet eine optimale vereinheitlichte visuelle Repräsentation, indem er sowohl visuelles Verständnis als auch Generierung hervorragend beherrscht; (ii) visuelle und Sprachdaten ergänzen sich und erzeugen Synergie für nachgelagerte Fähigkeiten; (iii) vereinheitlichtes multimodales Pretraining führt natürlich zu Weltmodellierung, wobei Fähigkeiten aus dem allgemeinen Training emergieren; und (iv) Mixture-of-Experts (MoE) ermöglicht effizientes und effektives multimodales Skalieren und induziert natürlich Modalspezialisierung. Durch IsoFLOP-Analyse berechnen wir Skalierungsgesetze für beide Modalitäten und decken eine Skalierungsasymmetrie auf: Vision ist deutlich datenhungriger als Sprache. Wir demonstrieren, dass die MoE-Architektur diese Skalierungsasymmetrie harmonisiert, indem sie die für Sprache erforderliche hohe Modellkapazität bereitstellt und gleichzeitig den datenintensiven Charakter der Vision berücksichtigt, was den Weg für wirklich vereinheitlichte multimodale Modelle ebnet.
English
The visual world offers a critical axis for advancing foundation models beyond language. Despite growing interest in this direction, the design space for native multimodal models remains opaque. We provide empirical clarity through controlled, from-scratch pretraining experiments, isolating the factors that govern multimodal pretraining without interference from language pretraining. We adopt the Transfusion framework, using next-token prediction for language and diffusion for vision, to train on diverse data including text, video, image-text pairs, and even action-conditioned video. Our experiments yield four key insights: (i) Representation Autoencoder (RAE) provides an optimal unified visual representation by excelling at both visual understanding and generation; (ii) visual and language data are complementary and yield synergy for downstream capabilities; (iii) unified multimodal pretraining leads naturally to world modeling, with capabilities emerging from general training; and (iv) Mixture-of-Experts (MoE) enables efficient and effective multimodal scaling while naturally inducing modality specialization. Through IsoFLOP analysis, we compute scaling laws for both modalities and uncover a scaling asymmetry: vision is significantly more data-hungry than language. We demonstrate that the MoE architecture harmonizes this scaling asymmetry by providing the high model capacity required by language while accommodating the data-intensive nature of vision, paving the way for truly unified multimodal models.