Oltre il Modellamento Linguistico: Un'Esplorazione del Pre-addestramento Multimodale

Abstract

Il mondo visivo rappresenta un asse critico per l'avanzamento dei modelli fondazionali oltre il linguaggio. Nonostante il crescente interesse in questa direzione, lo spazio di progettazione per modelli multimodali nativi rimane opaco. Forniamo chiarezza empirica attraverso esperimenti controllati di pre-addestramento da zero, isolando i fattori che governano il pre-addestramento multimodale senza interferenze dal pre-addestramento linguistico. Adottiamo il framework Transfusion, utilizzando la predizione del token successivo per il linguaggio e la diffusione per la visione, per addestrare su dati diversificati inclusi testo, video, coppie immagine-testo e persino video condizionati all'azione. I nostri esperimenti producono quattro intuizioni chiave: (i) il Representation Autoencoder (RAE) fornisce una rappresentazione visiva unificata ottimale eccellendo sia nella comprensione che nella generazione visiva; (ii) i dati visivi e linguistici sono complementari e producono sinergie per le capacità downstream; (iii) il pre-addestramento multimodale unificato conduce naturalmente alla modellazione del mondo, con capacità che emergono dall'addestramento generale; e (iv) il Mixture-of-Experts (MoE) consente uno scaling multimodale efficiente ed efficace inducendo naturalmente la specializzazione modale. Attraverso l'analisi IsoFLOP, calcoliamo le leggi di scaling per entrambe le modalità e scopriamo un'asimmetria di scaling: la visione è significativamente più avida di dati del linguaggio. Dimostriamo che l'architettura MoE armonizza questa asimmetria di scaling fornendo l'elevata capacità di modello richiesta dal linguaggio mentre si adatta alla natura data-intensive della visione, aprendo la strada a modelli multimodali veramente unificati.

English

The visual world offers a critical axis for advancing foundation models beyond language. Despite growing interest in this direction, the design space for native multimodal models remains opaque. We provide empirical clarity through controlled, from-scratch pretraining experiments, isolating the factors that govern multimodal pretraining without interference from language pretraining. We adopt the Transfusion framework, using next-token prediction for language and diffusion for vision, to train on diverse data including text, video, image-text pairs, and even action-conditioned video. Our experiments yield four key insights: (i) Representation Autoencoder (RAE) provides an optimal unified visual representation by excelling at both visual understanding and generation; (ii) visual and language data are complementary and yield synergy for downstream capabilities; (iii) unified multimodal pretraining leads naturally to world modeling, with capabilities emerging from general training; and (iv) Mixture-of-Experts (MoE) enables efficient and effective multimodal scaling while naturally inducing modality specialization. Through IsoFLOP analysis, we compute scaling laws for both modalities and uncover a scaling asymmetry: vision is significantly more data-hungry than language. We demonstrate that the MoE architecture harmonizes this scaling asymmetry by providing the high model capacity required by language while accommodating the data-intensive nature of vision, paving the way for truly unified multimodal models.

Oltre il Modellamento Linguistico: Un'Esplorazione del Pre-addestramento Multimodale

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Abstract

Support