Mixture-of-Transformers : Une architecture parcimonieuse et évolutive pour les modèles de fondation multi-modaux
Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models
November 7, 2024
papers.authors: Weixin Liang, Lili Yu, Liang Luo, Srinivasan Iyer, Ning Dong, Chunting Zhou, Gargi Ghosh, Mike Lewis, Wen-tau Yih, Luke Zettlemoyer, Xi Victoria Lin
cs.AI
papers.abstract
Le développement des grands modèles de langage (LLMs) s'est étendu à des systèmes multimodaux capables de traiter le texte, les images et la parole dans un cadre unifié. L'entraînement de ces modèles nécessite des ensembles de données et des ressources de calcul considérablement plus importants que les LLMs textuels uniquement. Pour relever les défis liés à la mise à l'échelle, nous introduisons Mixture-of-Transformers (MoT), une architecture de transformateur multimodal parcimonieuse qui réduit significativement les coûts de calcul lors du pré-entraînement. MoT découple les paramètres non-embarqués du modèle par modalité — incluant les réseaux feed-forward, les matrices d'attention et la normalisation de couche — permettant un traitement spécifique à chaque modalité avec une auto-attention globale sur la séquence d'entrée complète. Nous évaluons MoT dans plusieurs configurations et échelles de modèles. Dans le cadre de Chameleon 7B (génération autoregressive de texte et d'images), MoT atteint les performances de la base de référence dense en utilisant seulement 55,8 % des FLOPs. Lorsqu'il est étendu pour inclure la parole, MoT atteint des performances vocales comparables à la base de référence dense avec seulement 37,2 % des FLOPs. Dans le cadre de Transfusion, où le texte et l'image sont entraînés avec des objectifs différents, un modèle MoT de 7B correspond aux performances de la modalité image de la base de référence dense avec un tiers des FLOPs, et un modèle MoT de 760M surpasse une base de référence dense de 1,4B sur les principales métriques de génération d'images. Le profilage du système met en outre en évidence les avantages pratiques de MoT, atteignant la qualité d'image de la base de référence dense en 47,2 % du temps réel et la qualité de texte en 75,6 % du temps réel (mesuré sur des instances AWS p4de.24xlarge avec des GPU NVIDIA A100).
English
The development of large language models (LLMs) has expanded to multi-modal
systems capable of processing text, images, and speech within a unified
framework. Training these models demands significantly larger datasets and
computational resources compared to text-only LLMs. To address the scaling
challenges, we introduce Mixture-of-Transformers (MoT), a sparse multi-modal
transformer architecture that significantly reduces pretraining computational
costs. MoT decouples non-embedding parameters of the model by modality --
including feed-forward networks, attention matrices, and layer normalization --
enabling modality-specific processing with global self-attention over the full
input sequence. We evaluate MoT across multiple settings and model scales. In
the Chameleon 7B setting (autoregressive text-and-image generation), MoT
matches the dense baseline's performance using only 55.8\% of the FLOPs. When
extended to include speech, MoT reaches speech performance comparable to the
dense baseline with only 37.2\% of the FLOPs. In the Transfusion setting, where
text and image are trained with different objectives, a 7B MoT model matches
the image modality performance of the dense baseline with one third of the
FLOPs, and a 760M MoT model outperforms a 1.4B dense baseline across key image
generation metrics. System profiling further highlights MoT's practical
benefits, achieving dense baseline image quality in 47.2\% of the wall-clock
time and text quality in 75.6\% of the wall-clock time (measured on AWS
p4de.24xlarge instances with NVIDIA A100 GPUs).