Lois d'échelle pour les modèles multimodaux natifs Lois d'échelle pour les modèles multimodaux natifs
Scaling Laws for Native Multimodal Models Scaling Laws for Native Multimodal Models
April 10, 2025
Auteurs: Mustafa Shukor, Enrico Fini, Victor Guilherme Turrisi da Costa, Matthieu Cord, Joshua Susskind, Alaaeldin El-Nouby
cs.AI
Résumé
La construction de modèles généralistes capables de percevoir efficacement le monde à travers des signaux multimodaux constitue un objectif de longue date. Les approches actuelles impliquent l'intégration de composants pré-entraînés séparément, comme la connexion d'encodeurs visuels à des modèles de langage (LLMs) suivie d'un entraînement multimodal. Bien que ces approches démontrent une remarquable efficacité en termes d'échantillons, la question de savoir si ces architectures à fusion tardive sont intrinsèquement supérieures reste ouverte. Dans ce travail, nous revisitons la conception architecturale des modèles multimodaux natifs (NMMs)—ceux entraînés dès le départ sur toutes les modalités—et menons une étude approfondie des lois d'échelle, couvrant 457 modèles entraînés avec différentes architectures et mélanges d'entraînement. Notre investigation révèle qu'il n'existe aucun avantage inhérent aux architectures à fusion tardive par rapport à celles à fusion précoce, qui ne reposent pas sur des encodeurs d'images. Au contraire, la fusion précoce montre de meilleures performances avec un nombre de paramètres réduit, est plus efficace à entraîner et plus facile à déployer. Motivés par les performances solides des architectures à fusion précoce, nous montrons que l'intégration de Mixture of Experts (MoEs) permet à des modèles d'apprendre des poids spécifiques à chaque modalité, améliorant ainsi significativement les performances.
English
Building general-purpose models that can effectively perceive the world
through multimodal signals has been a long-standing goal. Current approaches
involve integrating separately pre-trained components, such as connecting
vision encoders to LLMs and continuing multimodal training. While such
approaches exhibit remarkable sample efficiency, it remains an open question
whether such late-fusion architectures are inherently superior. In this work,
we revisit the architectural design of native multimodal models (NMMs)--those
trained from the ground up on all modalities--and conduct an extensive scaling
laws study, spanning 457 trained models with different architectures and
training mixtures. Our investigation reveals no inherent advantage to
late-fusion architectures over early-fusion ones, which do not rely on image
encoders. On the contrary, early-fusion exhibits stronger performance at lower
parameter counts, is more efficient to train, and is easier to deploy.
Motivated by the strong performance of the early-fusion architectures, we show
that incorporating Mixture of Experts (MoEs) allows for models that learn
modality-specific weights, significantly enhancing performance.Summary
AI-Generated Summary