ChatPaper.aiChatPaper

Voorbij Taalmodelering: Een Verkenning van Multimodale Voorafgaande Training

Beyond Language Modeling: An Exploration of Multimodal Pretraining

March 3, 2026
Auteurs: Shengbang Tong, David Fan, John Nguyen, Ellis Brown, Gaoyue Zhou, Shengyi Qian, Boyang Zheng, Théophane Vallaeys, Junlin Han, Rob Fergus, Naila Murray, Marjan Ghazvininejad, Mike Lewis, Nicolas Ballas, Amir Bar, Michael Rabbat, Jakob Verbeek, Luke Zettlemoyer, Koustuv Sinha, Yann LeCun, Saining Xie
cs.AI

Samenvatting

De visuele wereld biedt een cruciaal aanknopingspunt voor het verbeteren van foundation models voorbij taal. Ondanks groeiende interesse in deze richting blijft de ontwerpruimte voor native multimodale modellen ondoorzichtig. Wij bieden empirische duidelijkheid door gecontroleerde, from-scratch pre-training experimenten, waarbij we de factoren isoleren die multimodale pre-training bepalen zonder interferentie van taalpre-training. We hanteren het Transfusion-framework, dat next-token-predictie voor taal en diffusion voor visie gebruikt, om te trainen op diverse data inclusief tekst, video, beeld-tekst-paren en zelfs actie-gestuurde video. Onze experimenten leveren vier belangrijke inzichten op: (i) Representation Autoencoder (RAE) biedt een optimale, verenigde visuele representatie door uit te blinken in zowel visueel begrip als -generatie; (ii) visuele en taalkundige data zijn complementair en creëren synergie voor downstream-capaciteiten; (iii) verenigde multimodale pre-training leidt van nature tot wereldmodellering, waarbij capaciteiten ontstaan uit algemene training; en (iv) Mixture-of-Experts (MoE) maakt efficiënte en effectieve multimodale schaalvergroting mogelijk en induceert van nature modale specialisatie. Via IsoFLOP-analyse berekenen we schaalwetten voor beide modaliteiten en ontdekken we een schaalasymmetrie: visie is aanzienlijk data-hongeriger dan taal. We tonen aan dat de MoE-architectuur deze schaalasymmetrie harmoniseert door de hoge modelcapaciteit te bieden die taal vereist, terwijl het de data-intensieve aard van visie accommodeert, waardoor de weg wordt geëffend voor werkelijk verenigde multimodale modellen.
English
The visual world offers a critical axis for advancing foundation models beyond language. Despite growing interest in this direction, the design space for native multimodal models remains opaque. We provide empirical clarity through controlled, from-scratch pretraining experiments, isolating the factors that govern multimodal pretraining without interference from language pretraining. We adopt the Transfusion framework, using next-token prediction for language and diffusion for vision, to train on diverse data including text, video, image-text pairs, and even action-conditioned video. Our experiments yield four key insights: (i) Representation Autoencoder (RAE) provides an optimal unified visual representation by excelling at both visual understanding and generation; (ii) visual and language data are complementary and yield synergy for downstream capabilities; (iii) unified multimodal pretraining leads naturally to world modeling, with capabilities emerging from general training; and (iv) Mixture-of-Experts (MoE) enables efficient and effective multimodal scaling while naturally inducing modality specialization. Through IsoFLOP analysis, we compute scaling laws for both modalities and uncover a scaling asymmetry: vision is significantly more data-hungry than language. We demonstrate that the MoE architecture harmonizes this scaling asymmetry by providing the high model capacity required by language while accommodating the data-intensive nature of vision, paving the way for truly unified multimodal models.
PDF695March 7, 2026