Чередующийся градиентный спуск и смесь экспертов для интегрированного мультимодального восприятия
Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception
May 10, 2023
Авторы: Hassan Akbari, Dan Kondratyuk, Yin Cui, Rachel Hornung, Huisheng Wang, Hartwig Adam
cs.AI
Аннотация
Мы представляем Integrated Multimodal Perception (IMP) — простой и масштабируемый подход к обучению и моделированию для многозадачных мультимодальных систем. IMP интегрирует мультимодальные входные данные, включая изображения, видео, текст и аудио, в единый Transformer-энкодер с минимальным количеством модально-специфичных компонентов. IMP использует новую архитектуру, сочетающую Alternating Gradient Descent (AGD) и Mixture-of-Experts (MoE) для эффективного масштабирования модели и задач. Мы провели обширные эмпирические исследования IMP и выявили следующие ключевые инсайты: 1) выполнение обновлений градиентного спуска с чередованием на разнородных модальностях, функциях потерь и задачах, а также варьирование разрешений входных данных, эффективно улучшает мультимодальное понимание. 2) разрежение модели с использованием MoE в едином модально-независимом энкодере значительно повышает производительность, превосходя плотные модели, использующие модально-специфичные энкодеры или дополнительные слои слияния, и существенно смягчает конфликты между модальностями. IMP демонстрирует конкурентоспособные результаты на широком спектре задач, включая классификацию изображений, классификацию видео, поиск по изображениям и тексту, а также поиск по видео и тексту. Наиболее примечательно, что мы обучили разреженную модель IMP-MoE-L, ориентированную на задачи с видео, которая устанавливает новый рекорд в zero-shot классификации видео. Наша модель достигает точности 77,0% на Kinetics-400, 76,8% на Kinetics-600 и 76,8% на Kinetics-700 в zero-shot классификации, улучшая предыдущие рекорды на +5%, +6,7% и +5,8% соответственно, при использовании всего 15% от их общего объема вычислительных затрат на обучение.
English
We present Integrated Multimodal Perception (IMP), a simple and scalable
multimodal multi-task training and modeling approach. IMP integrates multimodal
inputs including image, video, text, and audio into a single Transformer
encoder with minimal modality-specific components. IMP makes use of a novel
design that combines Alternating Gradient Descent (AGD) and Mixture-of-Experts
(MoE) for efficient model \& task scaling. We conduct extensive empirical
studies about IMP and reveal the following key insights: 1) performing gradient
descent updates by alternating on diverse heterogeneous modalities, loss
functions, and tasks, while also varying input resolutions, efficiently
improves multimodal understanding. 2) model sparsification with MoE on a single
modality-agnostic encoder substantially improves the performance, outperforming
dense models that use modality-specific encoders or additional fusion layers
and greatly mitigating the conflicts between modalities. IMP achieves
competitive performance on a wide range of downstream tasks including image
classification, video classification, image-text, and video-text retrieval.
Most notably, we train a sparse IMP-MoE-L focusing on video tasks that achieves
new state-of-the-art in zero-shot video classification. Our model achieves
77.0% on Kinetics-400, 76.8% on Kinetics-600, and 76.8% on Kinetics-700
zero-shot classification accuracy, improving the previous state-of-the-art by
+5%, +6.7%, and +5.8%, respectively, while using only 15% of their total
training computational cost.