Discesa del Gradiente Alternata e Mistura di Esperti per la Percezione Multimodale Integrata

Abstract

Presentiamo Integrated Multimodal Perception (IMP), un approccio semplice e scalabile per l'addestramento e la modellazione multimodale multi-task. IMP integra input multimodali, tra cui immagini, video, testo e audio, in un singolo encoder Transformer con un numero minimo di componenti specifici per modalità. IMP utilizza una progettazione innovativa che combina Alternating Gradient Descent (AGD) e Mixture-of-Experts (MoE) per un'efficiente scalabilità del modello e dei task. Abbiamo condotto ampi studi empirici su IMP, rivelando le seguenti intuizioni chiave: 1) eseguire aggiornamenti del gradient descent alternando su diverse modalità eterogenee, funzioni di perdita e task, variando anche le risoluzioni di input, migliora efficacemente la comprensione multimodale. 2) la sparsificazione del modello con MoE su un singolo encoder agnostico rispetto alla modalità migliora significativamente le prestazioni, superando i modelli densi che utilizzano encoder specifici per modalità o ulteriori livelli di fusione e mitigando notevolmente i conflitti tra le modalità. IMP raggiunge prestazioni competitive su un'ampia gamma di task downstream, tra cui classificazione di immagini, classificazione di video, retrieval immagine-testo e video-testo. In particolare, abbiamo addestrato un modello sparso IMP-MoE-L focalizzato sui task video che stabilisce un nuovo stato dell'arte nella classificazione zero-shot di video. Il nostro modello raggiunge il 77,0% su Kinetics-400, il 76,8% su Kinetics-600 e il 76,8% su Kinetics-700 in termini di accuratezza zero-shot, migliorando il precedente stato dell'arte rispettivamente di +5%, +6,7% e +5,8%, utilizzando solo il 15% del costo computazionale totale di addestramento.

English

We present Integrated Multimodal Perception (IMP), a simple and scalable multimodal multi-task training and modeling approach. IMP integrates multimodal inputs including image, video, text, and audio into a single Transformer encoder with minimal modality-specific components. IMP makes use of a novel design that combines Alternating Gradient Descent (AGD) and Mixture-of-Experts (MoE) for efficient model \& task scaling. We conduct extensive empirical studies about IMP and reveal the following key insights: 1) performing gradient descent updates by alternating on diverse heterogeneous modalities, loss functions, and tasks, while also varying input resolutions, efficiently improves multimodal understanding. 2) model sparsification with MoE on a single modality-agnostic encoder substantially improves the performance, outperforming dense models that use modality-specific encoders or additional fusion layers and greatly mitigating the conflicts between modalities. IMP achieves competitive performance on a wide range of downstream tasks including image classification, video classification, image-text, and video-text retrieval. Most notably, we train a sparse IMP-MoE-L focusing on video tasks that achieves new state-of-the-art in zero-shot video classification. Our model achieves 77.0% on Kinetics-400, 76.8% on Kinetics-600, and 76.8% on Kinetics-700 zero-shot classification accuracy, improving the previous state-of-the-art by +5%, +6.7%, and +5.8%, respectively, while using only 15% of their total training computational cost.

Discesa del Gradiente Alternata e Mistura di Esperti per la Percezione Multimodale Integrata

Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception

Abstract

Support