Alternierender Gradientenabstieg und Mixture-of-Experts für integrierte multimodale Wahrnehmung
Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception
May 10, 2023
Autoren: Hassan Akbari, Dan Kondratyuk, Yin Cui, Rachel Hornung, Huisheng Wang, Hartwig Adam
cs.AI
Zusammenfassung
Wir präsentieren Integrated Multimodal Perception (IMP), einen einfachen und skalierbaren Ansatz für multimodales Multi-Task-Training und -Modellierung. IMP integriert multimodale Eingaben wie Bilder, Videos, Text und Audio in einen einzigen Transformer-Encoder mit minimalen modalitätsspezifischen Komponenten. IMP nutzt ein neuartiges Design, das Alternating Gradient Descent (AGD) und Mixture-of-Experts (MoE) kombiniert, um eine effiziente Skalierung von Modell und Aufgaben zu ermöglichen. Wir führen umfangreiche empirische Studien zu IMP durch und zeigen folgende zentrale Erkenntnisse: 1) Die Durchführung von Gradientenabstiegs-Updates durch abwechselnde Bearbeitung verschiedener heterogener Modalitäten, Verlustfunktionen und Aufgaben bei gleichzeitiger Variation der Eingabeauflösungen verbessert das multimodale Verständnis effizient. 2) Die Modellsparsifizierung mit MoE auf einem einzigen modalitätsunabhängigen Encoder verbessert die Leistung erheblich, übertrifft dichte Modelle, die modalitätsspezifische Encoder oder zusätzliche Fusionsschichten verwenden, und mildert die Konflikte zwischen den Modalitäten deutlich. IMP erzielt wettbewerbsfähige Leistungen in einer Vielzahl von Downstream-Aufgaben, einschließlich Bildklassifizierung, Videoklassifizierung, Bild-Text- und Video-Text-Retrieval. Besonders hervorzuheben ist, dass wir ein spärliches IMP-MoE-L-Modell trainieren, das sich auf Videoaufgaben konzentriert und neue State-of-the-Art-Ergebnisse in der Zero-Shot-Videoklassifizierung erzielt. Unser Modell erreicht 77,0 % auf Kinetics-400, 76,8 % auf Kinetics-600 und 76,8 % auf Kinetics-700 in der Zero-Shot-Klassifizierungsgenauigkeit und verbessert den bisherigen State-of-the-Art um +5 %, +6,7 % bzw. +5,8 %, während nur 15 % der gesamten Trainingsrechenkosten verwendet werden.
English
We present Integrated Multimodal Perception (IMP), a simple and scalable
multimodal multi-task training and modeling approach. IMP integrates multimodal
inputs including image, video, text, and audio into a single Transformer
encoder with minimal modality-specific components. IMP makes use of a novel
design that combines Alternating Gradient Descent (AGD) and Mixture-of-Experts
(MoE) for efficient model \& task scaling. We conduct extensive empirical
studies about IMP and reveal the following key insights: 1) performing gradient
descent updates by alternating on diverse heterogeneous modalities, loss
functions, and tasks, while also varying input resolutions, efficiently
improves multimodal understanding. 2) model sparsification with MoE on a single
modality-agnostic encoder substantially improves the performance, outperforming
dense models that use modality-specific encoders or additional fusion layers
and greatly mitigating the conflicts between modalities. IMP achieves
competitive performance on a wide range of downstream tasks including image
classification, video classification, image-text, and video-text retrieval.
Most notably, we train a sparse IMP-MoE-L focusing on video tasks that achieves
new state-of-the-art in zero-shot video classification. Our model achieves
77.0% on Kinetics-400, 76.8% on Kinetics-600, and 76.8% on Kinetics-700
zero-shot classification accuracy, improving the previous state-of-the-art by
+5%, +6.7%, and +5.8%, respectively, while using only 15% of their total
training computational cost.