За пределами языкового моделирования: исследование многомодального предварительного обучения

Аннотация

Визуальный мир представляет собой ключевое направление для развития базовых моделей за пределы языковых возможностей. Несмотря на растущий интерес к этому направлению, пространство проектирования изначально мультимодальных моделей остается неясным. Мы предоставляем эмпирическую ясность посредством контролируемых экспериментов по предварительному обучению с нуля, изолируя факторы, управляющие мультимодальным предварительным обучением, без влияния языкового предобучения. Мы используем фреймворк Transfusion, применяя предсказание следующего токена для языка и диффузию для зрения, для обучения на разнообразных данных, включающих текст, видео, пары "изображение-текст" и даже видео с условиями действий. Наши эксперименты выявляют четыре ключевых вывода: (i) Автокодировщик представлений (RAE) обеспечивает оптимальное унифицированное визуальное представление, превосходя как в понимании, так и в генерации изображений; (ii) визуальные и языковые данные дополняют друг друга и создают синергию для формирования последующих способностей; (iii) унифицированное мультимодальное предварительное обучение естественным образом приводит к моделированию мира, при котором способности возникают из общего обучения; и (iv) смесь экспертов (MoE) позволяет эффективно и результативно масштабировать мультимодальные модели, естественным образом вызывая специализацию по модальностям. С помощью анализа IsoFLOP мы вычисляем законы масштабирования для обеих модальностей и обнаруживаем асимметрию масштабирования: зрение требует значительно больше данных, чем язык. Мы демонстрируем, что архитектура MoE гармонизирует эту асимметрию масштабирования, предоставляя высокую емкость модели, требуемую языком, и одновременно удовлетворяя требовательность зрения к данным, прокладывая путь к созданию truly унифицированных мультимодальных моделей.

English

The visual world offers a critical axis for advancing foundation models beyond language. Despite growing interest in this direction, the design space for native multimodal models remains opaque. We provide empirical clarity through controlled, from-scratch pretraining experiments, isolating the factors that govern multimodal pretraining without interference from language pretraining. We adopt the Transfusion framework, using next-token prediction for language and diffusion for vision, to train on diverse data including text, video, image-text pairs, and even action-conditioned video. Our experiments yield four key insights: (i) Representation Autoencoder (RAE) provides an optimal unified visual representation by excelling at both visual understanding and generation; (ii) visual and language data are complementary and yield synergy for downstream capabilities; (iii) unified multimodal pretraining leads naturally to world modeling, with capabilities emerging from general training; and (iv) Mixture-of-Experts (MoE) enables efficient and effective multimodal scaling while naturally inducing modality specialization. Through IsoFLOP analysis, we compute scaling laws for both modalities and uncover a scaling asymmetry: vision is significantly more data-hungry than language. We demonstrate that the MoE architecture harmonizes this scaling asymmetry by providing the high model capacity required by language while accommodating the data-intensive nature of vision, paving the way for truly unified multimodal models.

За пределами языкового моделирования: исследование многомодального предварительного обучения

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Аннотация

Support