Descente de Gradient Alternée et Mélange d'Experts pour une Perception Multimodale Intégrée
Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception
May 10, 2023
Auteurs: Hassan Akbari, Dan Kondratyuk, Yin Cui, Rachel Hornung, Huisheng Wang, Hartwig Adam
cs.AI
Résumé
Nous présentons Integrated Multimodal Perception (IMP), une approche simple et évolutive pour l'entraînement et la modélisation multi-tâches multimodales. IMP intègre des entrées multimodales incluant des images, des vidéos, du texte et de l'audio dans un seul encodeur Transformer avec un minimum de composants spécifiques à chaque modalité. IMP utilise une conception novatrice qui combine la Descente de Gradient Alternée (AGD) et le Mixture-of-Experts (MoE) pour une mise à l'échelle efficace des modèles et des tâches. Nous menons des études empiriques approfondies sur IMP et révélons les insights clés suivants : 1) effectuer des mises à jour par descente de gradient en alternant sur des modalités hétérogènes diverses, des fonctions de perte et des tâches, tout en variant les résolutions d'entrée, améliore efficacement la compréhension multimodale. 2) la sparsification du modèle avec MoE sur un seul encodeur agnostique aux modalités améliore considérablement les performances, surpassant les modèles denses utilisant des encodeurs spécifiques à chaque modalité ou des couches de fusion supplémentaires, et atténue grandement les conflits entre modalités. IMP atteint des performances compétitives sur un large éventail de tâches en aval, incluant la classification d'images, la classification de vidéos, la recherche image-texte et vidéo-texte. Plus notablement, nous entraînons un IMP-MoE-L sparse axé sur les tâches vidéo qui établit un nouvel état de l'art en classification zéro-shot de vidéos. Notre modèle atteint 77,0% sur Kinetics-400, 76,8% sur Kinetics-600 et 76,8% sur Kinetics-700 en précision de classification zéro-shot, améliorant l'état de l'art précédent de +5%, +6,7% et +5,8% respectivement, tout en utilisant seulement 15% de leur coût de calcul total d'entraînement.
English
We present Integrated Multimodal Perception (IMP), a simple and scalable
multimodal multi-task training and modeling approach. IMP integrates multimodal
inputs including image, video, text, and audio into a single Transformer
encoder with minimal modality-specific components. IMP makes use of a novel
design that combines Alternating Gradient Descent (AGD) and Mixture-of-Experts
(MoE) for efficient model \& task scaling. We conduct extensive empirical
studies about IMP and reveal the following key insights: 1) performing gradient
descent updates by alternating on diverse heterogeneous modalities, loss
functions, and tasks, while also varying input resolutions, efficiently
improves multimodal understanding. 2) model sparsification with MoE on a single
modality-agnostic encoder substantially improves the performance, outperforming
dense models that use modality-specific encoders or additional fusion layers
and greatly mitigating the conflicts between modalities. IMP achieves
competitive performance on a wide range of downstream tasks including image
classification, video classification, image-text, and video-text retrieval.
Most notably, we train a sparse IMP-MoE-L focusing on video tasks that achieves
new state-of-the-art in zero-shot video classification. Our model achieves
77.0% on Kinetics-400, 76.8% on Kinetics-600, and 76.8% on Kinetics-700
zero-shot classification accuracy, improving the previous state-of-the-art by
+5%, +6.7%, and +5.8%, respectively, while using only 15% of their total
training computational cost.