Au-delà du modélage linguistique : exploration du pré-entraînement multimodal

Résumé

Le monde visuel constitue un axe essentiel pour faire progresser les modèles de fondation au-delà du langage. Malgré l'intérêt croissant pour cette direction, l'espace de conception des modèles multimodaux natifs demeure opaque. Nous apportons une clarification empirique grâce à des expériences contrôlées de pré-entraînement à partir de zéro, isolant les facteurs qui régissent le pré-entraînement multimodal sans interférence avec le pré-entraînement linguistique. Nous adoptons le cadre Transfusion, utilisant la prédiction de token suivant pour le langage et la diffusion pour la vision, pour entraîner sur des données diverses incluant du texte, de la vidéo, des paires image-texte, et même de la vidéo conditionnée par l'action. Nos expériences produisent quatre insights clés : (i) l'autoencodeur de représentation (RAE) fournit une représentation visuelle unifiée optimale en excellant à la fois en compréhension et en génération visuelles ; (ii) les données visuelles et linguistiques sont complémentaires et produisent une synergie pour les capacités en aval ; (iii) le pré-entraînement multimodal unifié mène naturellement à la modélisation du monde, avec des capacités émergeant de l'entraînement général ; et (iv) le mélange d'experts (MoE) permet une mise à l'échelle multimodale efficace et efficiente tout en induisant naturellement une spécialisation modale. Par une analyse IsoFLOP, nous calculons les lois d'échelle pour les deux modalités et découvrons une asymétrie d'échelle : la vision est nettement plus gourmande en données que le langage. Nous démontrons que l'architecture MoE harmonise cette asymétrie d'échelle en fournissant la forte capacité de modèle requise par le langage tout en accommodant la nature intensive en données de la vision, ouvrant la voie à des modèles multimodaux véritablement unifiés.

English

The visual world offers a critical axis for advancing foundation models beyond language. Despite growing interest in this direction, the design space for native multimodal models remains opaque. We provide empirical clarity through controlled, from-scratch pretraining experiments, isolating the factors that govern multimodal pretraining without interference from language pretraining. We adopt the Transfusion framework, using next-token prediction for language and diffusion for vision, to train on diverse data including text, video, image-text pairs, and even action-conditioned video. Our experiments yield four key insights: (i) Representation Autoencoder (RAE) provides an optimal unified visual representation by excelling at both visual understanding and generation; (ii) visual and language data are complementary and yield synergy for downstream capabilities; (iii) unified multimodal pretraining leads naturally to world modeling, with capabilities emerging from general training; and (iv) Mixture-of-Experts (MoE) enables efficient and effective multimodal scaling while naturally inducing modality specialization. Through IsoFLOP analysis, we compute scaling laws for both modalities and uncover a scaling asymmetry: vision is significantly more data-hungry than language. We demonstrate that the MoE architecture harmonizes this scaling asymmetry by providing the high model capacity required by language while accommodating the data-intensive nature of vision, paving the way for truly unified multimodal models.

Au-delà du modélage linguistique : exploration du pré-entraînement multimodal

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Résumé

Support