Além da Modelagem de Linguagem: Uma Exploração do Pré-treinamento Multimodal

Resumo

O mundo visual oferece um eixo crítico para avançar os modelos de base além da linguagem. Apesar do crescente interesse nesta direção, o espaço de projeto para modelos multimodais nativos permanece opaco. Nós fornecemos clareza empírica através de experimentos controlados de pré-treinamento a partir do zero, isolando os fatores que governam o pré-treinamento multimodal sem interferência do pré-treinamento de linguagem. Adotamos a arquitetura Transfusion, usando previsão do próximo token para linguagem e difusão para visão, para treinar em dados diversos, incluindo texto, vídeo, pares de imagem-texto e até vídeo condicionado por ações. Nossos experimentos geram quatro insights principais: (i) o Autoencoder de Representação (RAE) fornece uma representação visual unificada ideal ao se destacar tanto na compreensão quanto na geração visual; (ii) dados visuais e linguísticos são complementares e produzem sinergia para capacidades de tarefas posteriores; (iii) o pré-treinamento multimodal unificado leva naturalmente à modelagem do mundo, com capacidades emergindo do treinamento geral; e (iv) a arquitetura Mistura de Especialistas (MoE) permite um escalonamento multimodal eficiente e eficaz, induzindo naturalmente a especialização por modalidade. Através da análise IsoFLOP, calculamos as leis de escalonamento para ambas as modalidades e descobrimos uma assimetria de escalonamento: a visão é significativamente mais carente de dados do que a linguagem. Demonstramos que a arquitetura MoE harmoniza essa assimetria de escalonamento ao fornecer a alta capacidade de modelo exigida pela linguagem, acomodando ao mesmo tempo a natureza intensiva em dados da visão, abrindo caminho para modelos multimodais verdadeiramente unificados.

English

The visual world offers a critical axis for advancing foundation models beyond language. Despite growing interest in this direction, the design space for native multimodal models remains opaque. We provide empirical clarity through controlled, from-scratch pretraining experiments, isolating the factors that govern multimodal pretraining without interference from language pretraining. We adopt the Transfusion framework, using next-token prediction for language and diffusion for vision, to train on diverse data including text, video, image-text pairs, and even action-conditioned video. Our experiments yield four key insights: (i) Representation Autoencoder (RAE) provides an optimal unified visual representation by excelling at both visual understanding and generation; (ii) visual and language data are complementary and yield synergy for downstream capabilities; (iii) unified multimodal pretraining leads naturally to world modeling, with capabilities emerging from general training; and (iv) Mixture-of-Experts (MoE) enables efficient and effective multimodal scaling while naturally inducing modality specialization. Through IsoFLOP analysis, we compute scaling laws for both modalities and uncover a scaling asymmetry: vision is significantly more data-hungry than language. We demonstrate that the MoE architecture harmonizes this scaling asymmetry by providing the high model capacity required by language while accommodating the data-intensive nature of vision, paving the way for truly unified multimodal models.

Além da Modelagem de Linguagem: Uma Exploração do Pré-treinamento Multimodal

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Resumo

Support