Законы масштабирования для нативных мультимодальных моделей
Scaling Laws for Native Multimodal Models Scaling Laws for Native Multimodal Models
April 10, 2025
Авторы: Mustafa Shukor, Enrico Fini, Victor Guilherme Turrisi da Costa, Matthieu Cord, Joshua Susskind, Alaaeldin El-Nouby
cs.AI
Аннотация
Создание универсальных моделей, способных эффективно воспринимать мир через мультимодальные сигналы, является давней целью. Современные подходы предполагают интеграцию предварительно обученных компонентов, таких как подключение визуальных кодировщиков к большим языковым моделям (LLM) и продолжение мультимодального обучения. Хотя такие подходы демонстрируют впечатляющую эффективность использования данных, остается открытым вопрос, являются ли архитектуры с поздним слиянием (late-fusion) изначально превосходящими. В данной работе мы пересматриваем архитектурный дизайн нативных мультимодальных моделей (NMM) — тех, которые обучаются с нуля на всех модальностях — и проводим масштабное исследование законов масштабирования, охватывающее 457 обученных моделей с различными архитектурами и обучающими смесями. Наше исследование не выявляет изначального преимущества архитектур с поздним слиянием перед архитектурами с ранним слиянием (early-fusion), которые не зависят от кодировщиков изображений. Напротив, раннее слияние демонстрирует более высокую производительность при меньшем количестве параметров, более эффективно в обучении и проще в развертывании. Вдохновленные высокой производительностью архитектур с ранним слиянием, мы показываем, что включение смеси экспертов (Mixture of Experts, MoE) позволяет моделям изучать модально-специфичные веса, что значительно повышает их эффективность.
English
Building general-purpose models that can effectively perceive the world
through multimodal signals has been a long-standing goal. Current approaches
involve integrating separately pre-trained components, such as connecting
vision encoders to LLMs and continuing multimodal training. While such
approaches exhibit remarkable sample efficiency, it remains an open question
whether such late-fusion architectures are inherently superior. In this work,
we revisit the architectural design of native multimodal models (NMMs)--those
trained from the ground up on all modalities--and conduct an extensive scaling
laws study, spanning 457 trained models with different architectures and
training mixtures. Our investigation reveals no inherent advantage to
late-fusion architectures over early-fusion ones, which do not rely on image
encoders. On the contrary, early-fusion exhibits stronger performance at lower
parameter counts, is more efficient to train, and is easier to deploy.
Motivated by the strong performance of the early-fusion architectures, we show
that incorporating Mixture of Experts (MoEs) allows for models that learn
modality-specific weights, significantly enhancing performance.Summary
AI-Generated Summary