Além da Modelagem de Linguagem: Uma Exploração do Pré-treinamento Multimodal
Beyond Language Modeling: An Exploration of Multimodal Pretraining
March 3, 2026
Autores: Shengbang Tong, David Fan, John Nguyen, Ellis Brown, Gaoyue Zhou, Shengyi Qian, Boyang Zheng, Théophane Vallaeys, Junlin Han, Rob Fergus, Naila Murray, Marjan Ghazvininejad, Mike Lewis, Nicolas Ballas, Amir Bar, Michael Rabbat, Jakob Verbeek, Luke Zettlemoyer, Koustuv Sinha, Yann LeCun, Saining Xie
cs.AI
Resumo
O mundo visual oferece um eixo crítico para avançar os modelos de base além da linguagem. Apesar do crescente interesse nesta direção, o espaço de projeto para modelos multimodais nativos permanece opaco. Nós fornecemos clareza empírica através de experimentos controlados de pré-treinamento a partir do zero, isolando os fatores que governam o pré-treinamento multimodal sem interferência do pré-treinamento de linguagem. Adotamos a arquitetura Transfusion, usando previsão do próximo token para linguagem e difusão para visão, para treinar em dados diversos, incluindo texto, vídeo, pares de imagem-texto e até vídeo condicionado por ações. Nossos experimentos geram quatro insights principais: (i) o Autoencoder de Representação (RAE) fornece uma representação visual unificada ideal ao se destacar tanto na compreensão quanto na geração visual; (ii) dados visuais e linguísticos são complementares e produzem sinergia para capacidades de tarefas posteriores; (iii) o pré-treinamento multimodal unificado leva naturalmente à modelagem do mundo, com capacidades emergindo do treinamento geral; e (iv) a arquitetura Mistura de Especialistas (MoE) permite um escalonamento multimodal eficiente e eficaz, induzindo naturalmente a especialização por modalidade. Através da análise IsoFLOP, calculamos as leis de escalonamento para ambas as modalidades e descobrimos uma assimetria de escalonamento: a visão é significativamente mais carente de dados do que a linguagem. Demonstramos que a arquitetura MoE harmoniza essa assimetria de escalonamento ao fornecer a alta capacidade de modelo exigida pela linguagem, acomodando ao mesmo tempo a natureza intensiva em dados da visão, abrindo caminho para modelos multimodais verdadeiramente unificados.
English
The visual world offers a critical axis for advancing foundation models beyond language. Despite growing interest in this direction, the design space for native multimodal models remains opaque. We provide empirical clarity through controlled, from-scratch pretraining experiments, isolating the factors that govern multimodal pretraining without interference from language pretraining. We adopt the Transfusion framework, using next-token prediction for language and diffusion for vision, to train on diverse data including text, video, image-text pairs, and even action-conditioned video. Our experiments yield four key insights: (i) Representation Autoencoder (RAE) provides an optimal unified visual representation by excelling at both visual understanding and generation; (ii) visual and language data are complementary and yield synergy for downstream capabilities; (iii) unified multimodal pretraining leads naturally to world modeling, with capabilities emerging from general training; and (iv) Mixture-of-Experts (MoE) enables efficient and effective multimodal scaling while naturally inducing modality specialization. Through IsoFLOP analysis, we compute scaling laws for both modalities and uncover a scaling asymmetry: vision is significantly more data-hungry than language. We demonstrate that the MoE architecture harmonizes this scaling asymmetry by providing the high model capacity required by language while accommodating the data-intensive nature of vision, paving the way for truly unified multimodal models.