За пределами языкового моделирования: исследование многомодального предварительного обучения
Beyond Language Modeling: An Exploration of Multimodal Pretraining
March 3, 2026
Авторы: Shengbang Tong, David Fan, John Nguyen, Ellis Brown, Gaoyue Zhou, Shengyi Qian, Boyang Zheng, Théophane Vallaeys, Junlin Han, Rob Fergus, Naila Murray, Marjan Ghazvininejad, Mike Lewis, Nicolas Ballas, Amir Bar, Michael Rabbat, Jakob Verbeek, Luke Zettlemoyer, Koustuv Sinha, Yann LeCun, Saining Xie
cs.AI
Аннотация
Визуальный мир представляет собой ключевое направление для развития базовых моделей за пределы языковых возможностей. Несмотря на растущий интерес к этому направлению, пространство проектирования изначально мультимодальных моделей остается неясным. Мы предоставляем эмпирическую ясность посредством контролируемых экспериментов по предварительному обучению с нуля, изолируя факторы, управляющие мультимодальным предварительным обучением, без влияния языкового предобучения. Мы используем фреймворк Transfusion, применяя предсказание следующего токена для языка и диффузию для зрения, для обучения на разнообразных данных, включающих текст, видео, пары "изображение-текст" и даже видео с условиями действий. Наши эксперименты выявляют четыре ключевых вывода: (i) Автокодировщик представлений (RAE) обеспечивает оптимальное унифицированное визуальное представление, превосходя как в понимании, так и в генерации изображений; (ii) визуальные и языковые данные дополняют друг друга и создают синергию для формирования последующих способностей; (iii) унифицированное мультимодальное предварительное обучение естественным образом приводит к моделированию мира, при котором способности возникают из общего обучения; и (iv) смесь экспертов (MoE) позволяет эффективно и результативно масштабировать мультимодальные модели, естественным образом вызывая специализацию по модальностям. С помощью анализа IsoFLOP мы вычисляем законы масштабирования для обеих модальностей и обнаруживаем асимметрию масштабирования: зрение требует значительно больше данных, чем язык. Мы демонстрируем, что архитектура MoE гармонизирует эту асимметрию масштабирования, предоставляя высокую емкость модели, требуемую языком, и одновременно удовлетворяя требовательность зрения к данным, прокладывая путь к созданию truly унифицированных мультимодальных моделей.
English
The visual world offers a critical axis for advancing foundation models beyond language. Despite growing interest in this direction, the design space for native multimodal models remains opaque. We provide empirical clarity through controlled, from-scratch pretraining experiments, isolating the factors that govern multimodal pretraining without interference from language pretraining. We adopt the Transfusion framework, using next-token prediction for language and diffusion for vision, to train on diverse data including text, video, image-text pairs, and even action-conditioned video. Our experiments yield four key insights: (i) Representation Autoencoder (RAE) provides an optimal unified visual representation by excelling at both visual understanding and generation; (ii) visual and language data are complementary and yield synergy for downstream capabilities; (iii) unified multimodal pretraining leads naturally to world modeling, with capabilities emerging from general training; and (iv) Mixture-of-Experts (MoE) enables efficient and effective multimodal scaling while naturally inducing modality specialization. Through IsoFLOP analysis, we compute scaling laws for both modalities and uncover a scaling asymmetry: vision is significantly more data-hungry than language. We demonstrate that the MoE architecture harmonizes this scaling asymmetry by providing the high model capacity required by language while accommodating the data-intensive nature of vision, paving the way for truly unified multimodal models.