Más allá del modelado del lenguaje: una exploración del preentrenamiento multimodal

Resumen

El mundo visual ofrece un eje crítico para avanzar más allá del lenguaje en los modelos fundacionales. A pesar del creciente interés en esta dirección, el espacio de diseño para modelos multimodales nativos sigue siendo opaco. Proporcionamos claridad empírica mediante experimentos controlados de preentrenamiento desde cero, aislando los factores que gobiernan el preentrenamiento multimodal sin interferencia del preentrenamiento lingüístico. Adoptamos el marco Transfusión, utilizando predicción del siguiente token para lenguaje y difusión para visión, para entrenar con datos diversos que incluyen texto, vídeo, pares imagen-texto e incluso vídeo condicionado por acciones. Nuestros experimentos arrojan cuatro conclusiones clave: (i) el Autoencoder de Representación (RAE) proporciona una representación visual unificada óptima al sobresalir tanto en comprensión como en generación visual; (ii) los datos visuales y lingüísticos son complementarios y producen sinergia para capacidades posteriores; (iii) el preentrenamiento multimodal unificado conduce naturalmente al modelado del mundo, emergiendo capacidades del entrenamiento general; y (iv) la Mezcla de Expertos (MoE) permite un escalado multimodal eficiente y efectivo mientras induce naturalmente especialización modal. Mediante análisis IsoFLOP, calculamos leyes de escalado para ambas modalidades y descubrimos una asimetría de escalado: la visión es significativamente más demandante de datos que el lenguaje. Demostramos que la arquitectura MoE armoniza esta asimetría de escalado al proporcionar la alta capacidad de modelo requerida por el lenguaje mientras acomoda la naturaleza intensiva en datos de la visión, allanando el camino para modelos multimodales verdaderamente unificados.

English

The visual world offers a critical axis for advancing foundation models beyond language. Despite growing interest in this direction, the design space for native multimodal models remains opaque. We provide empirical clarity through controlled, from-scratch pretraining experiments, isolating the factors that govern multimodal pretraining without interference from language pretraining. We adopt the Transfusion framework, using next-token prediction for language and diffusion for vision, to train on diverse data including text, video, image-text pairs, and even action-conditioned video. Our experiments yield four key insights: (i) Representation Autoencoder (RAE) provides an optimal unified visual representation by excelling at both visual understanding and generation; (ii) visual and language data are complementary and yield synergy for downstream capabilities; (iii) unified multimodal pretraining leads naturally to world modeling, with capabilities emerging from general training; and (iv) Mixture-of-Experts (MoE) enables efficient and effective multimodal scaling while naturally inducing modality specialization. Through IsoFLOP analysis, we compute scaling laws for both modalities and uncover a scaling asymmetry: vision is significantly more data-hungry than language. We demonstrate that the MoE architecture harmonizes this scaling asymmetry by providing the high model capacity required by language while accommodating the data-intensive nature of vision, paving the way for truly unified multimodal models.

Más allá del modelado del lenguaje: una exploración del preentrenamiento multimodal

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Resumen

Support