Discesa del Gradiente Alternata e Mistura di Esperti per la Percezione Multimodale Integrata
Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception
May 10, 2023
Autori: Hassan Akbari, Dan Kondratyuk, Yin Cui, Rachel Hornung, Huisheng Wang, Hartwig Adam
cs.AI
Abstract
Presentiamo Integrated Multimodal Perception (IMP), un approccio semplice e scalabile per l'addestramento e la modellazione multimodale multi-task. IMP integra input multimodali, tra cui immagini, video, testo e audio, in un singolo encoder Transformer con un numero minimo di componenti specifici per modalità. IMP utilizza una progettazione innovativa che combina Alternating Gradient Descent (AGD) e Mixture-of-Experts (MoE) per un'efficiente scalabilità del modello e dei task. Abbiamo condotto ampi studi empirici su IMP, rivelando le seguenti intuizioni chiave: 1) eseguire aggiornamenti del gradient descent alternando su diverse modalità eterogenee, funzioni di perdita e task, variando anche le risoluzioni di input, migliora efficacemente la comprensione multimodale. 2) la sparsificazione del modello con MoE su un singolo encoder agnostico rispetto alla modalità migliora significativamente le prestazioni, superando i modelli densi che utilizzano encoder specifici per modalità o ulteriori livelli di fusione e mitigando notevolmente i conflitti tra le modalità. IMP raggiunge prestazioni competitive su un'ampia gamma di task downstream, tra cui classificazione di immagini, classificazione di video, retrieval immagine-testo e video-testo. In particolare, abbiamo addestrato un modello sparso IMP-MoE-L focalizzato sui task video che stabilisce un nuovo stato dell'arte nella classificazione zero-shot di video. Il nostro modello raggiunge il 77,0% su Kinetics-400, il 76,8% su Kinetics-600 e il 76,8% su Kinetics-700 in termini di accuratezza zero-shot, migliorando il precedente stato dell'arte rispettivamente di +5%, +6,7% e +5,8%, utilizzando solo il 15% del costo computazionale totale di addestramento.
English
We present Integrated Multimodal Perception (IMP), a simple and scalable
multimodal multi-task training and modeling approach. IMP integrates multimodal
inputs including image, video, text, and audio into a single Transformer
encoder with minimal modality-specific components. IMP makes use of a novel
design that combines Alternating Gradient Descent (AGD) and Mixture-of-Experts
(MoE) for efficient model \& task scaling. We conduct extensive empirical
studies about IMP and reveal the following key insights: 1) performing gradient
descent updates by alternating on diverse heterogeneous modalities, loss
functions, and tasks, while also varying input resolutions, efficiently
improves multimodal understanding. 2) model sparsification with MoE on a single
modality-agnostic encoder substantially improves the performance, outperforming
dense models that use modality-specific encoders or additional fusion layers
and greatly mitigating the conflicts between modalities. IMP achieves
competitive performance on a wide range of downstream tasks including image
classification, video classification, image-text, and video-text retrieval.
Most notably, we train a sparse IMP-MoE-L focusing on video tasks that achieves
new state-of-the-art in zero-shot video classification. Our model achieves
77.0% on Kinetics-400, 76.8% on Kinetics-600, and 76.8% on Kinetics-700
zero-shot classification accuracy, improving the previous state-of-the-art by
+5%, +6.7%, and +5.8%, respectively, while using only 15% of their total
training computational cost.