Descente de Gradient Alternée et Mélange d'Experts pour une Perception Multimodale Intégrée

Résumé

Nous présentons Integrated Multimodal Perception (IMP), une approche simple et évolutive pour l'entraînement et la modélisation multi-tâches multimodales. IMP intègre des entrées multimodales incluant des images, des vidéos, du texte et de l'audio dans un seul encodeur Transformer avec un minimum de composants spécifiques à chaque modalité. IMP utilise une conception novatrice qui combine la Descente de Gradient Alternée (AGD) et le Mixture-of-Experts (MoE) pour une mise à l'échelle efficace des modèles et des tâches. Nous menons des études empiriques approfondies sur IMP et révélons les insights clés suivants : 1) effectuer des mises à jour par descente de gradient en alternant sur des modalités hétérogènes diverses, des fonctions de perte et des tâches, tout en variant les résolutions d'entrée, améliore efficacement la compréhension multimodale. 2) la sparsification du modèle avec MoE sur un seul encodeur agnostique aux modalités améliore considérablement les performances, surpassant les modèles denses utilisant des encodeurs spécifiques à chaque modalité ou des couches de fusion supplémentaires, et atténue grandement les conflits entre modalités. IMP atteint des performances compétitives sur un large éventail de tâches en aval, incluant la classification d'images, la classification de vidéos, la recherche image-texte et vidéo-texte. Plus notablement, nous entraînons un IMP-MoE-L sparse axé sur les tâches vidéo qui établit un nouvel état de l'art en classification zéro-shot de vidéos. Notre modèle atteint 77,0% sur Kinetics-400, 76,8% sur Kinetics-600 et 76,8% sur Kinetics-700 en précision de classification zéro-shot, améliorant l'état de l'art précédent de +5%, +6,7% et +5,8% respectivement, tout en utilisant seulement 15% de leur coût de calcul total d'entraînement.

English

We present Integrated Multimodal Perception (IMP), a simple and scalable multimodal multi-task training and modeling approach. IMP integrates multimodal inputs including image, video, text, and audio into a single Transformer encoder with minimal modality-specific components. IMP makes use of a novel design that combines Alternating Gradient Descent (AGD) and Mixture-of-Experts (MoE) for efficient model \& task scaling. We conduct extensive empirical studies about IMP and reveal the following key insights: 1) performing gradient descent updates by alternating on diverse heterogeneous modalities, loss functions, and tasks, while also varying input resolutions, efficiently improves multimodal understanding. 2) model sparsification with MoE on a single modality-agnostic encoder substantially improves the performance, outperforming dense models that use modality-specific encoders or additional fusion layers and greatly mitigating the conflicts between modalities. IMP achieves competitive performance on a wide range of downstream tasks including image classification, video classification, image-text, and video-text retrieval. Most notably, we train a sparse IMP-MoE-L focusing on video tasks that achieves new state-of-the-art in zero-shot video classification. Our model achieves 77.0% on Kinetics-400, 76.8% on Kinetics-600, and 76.8% on Kinetics-700 zero-shot classification accuracy, improving the previous state-of-the-art by +5%, +6.7%, and +5.8%, respectively, while using only 15% of their total training computational cost.

Descente de Gradient Alternée et Mélange d'Experts pour une Perception Multimodale Intégrée

Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception

Résumé

Support