Descida de Gradiente Alternada e Mistura de Especialistas para Percepção Multimodal Integrada
Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception
May 10, 2023
Autores: Hassan Akbari, Dan Kondratyuk, Yin Cui, Rachel Hornung, Huisheng Wang, Hartwig Adam
cs.AI
Resumo
Apresentamos a Percepção Multimodal Integrada (IMP, do inglês Integrated Multimodal Perception), uma abordagem simples e escalável para treinamento e modelagem multimodal e multitarefa. A IMP integra entradas multimodais, incluindo imagem, vídeo, texto e áudio, em um único codificador Transformer com componentes específicos de modalidade mínimos. A IMP utiliza um design inovador que combina Descida de Gradiente Alternada (AGD, do inglês Alternating Gradient Descent) e Mistura de Especialistas (MoE, do inglês Mixture-of-Experts) para uma escalabilidade eficiente de modelos e tarefas. Realizamos estudos empíricos extensivos sobre a IMP e revelamos os seguintes insights principais: 1) realizar atualizações de descida de gradiente alternando entre diversas modalidades heterogêneas, funções de perda e tarefas, enquanto também varia as resoluções de entrada, melhora eficientemente a compreensão multimodal. 2) a esparsificação do modelo com MoE em um único codificador agnóstico à modalidade melhora substancialmente o desempenho, superando modelos densos que usam codificadores específicos por modalidade ou camadas adicionais de fusão, e mitigando significativamente os conflitos entre modalidades. A IMP alcança desempenho competitivo em uma ampla gama de tarefas subsequentes, incluindo classificação de imagens, classificação de vídeos, recuperação de imagem-texto e vídeo-texto. Mais notavelmente, treinamos uma IMP-MoE-L esparsa focada em tarefas de vídeo que alcança um novo estado da arte em classificação de vídeo zero-shot. Nosso modelo alcança 77,0% no Kinetics-400, 76,8% no Kinetics-600 e 76,8% no Kinetics-700 em precisão de classificação zero-shot, melhorando o estado da arte anterior em +5%, +6,7% e +5,8%, respectivamente, enquanto utiliza apenas 15% do custo computacional total de treinamento desses modelos.
English
We present Integrated Multimodal Perception (IMP), a simple and scalable
multimodal multi-task training and modeling approach. IMP integrates multimodal
inputs including image, video, text, and audio into a single Transformer
encoder with minimal modality-specific components. IMP makes use of a novel
design that combines Alternating Gradient Descent (AGD) and Mixture-of-Experts
(MoE) for efficient model \& task scaling. We conduct extensive empirical
studies about IMP and reveal the following key insights: 1) performing gradient
descent updates by alternating on diverse heterogeneous modalities, loss
functions, and tasks, while also varying input resolutions, efficiently
improves multimodal understanding. 2) model sparsification with MoE on a single
modality-agnostic encoder substantially improves the performance, outperforming
dense models that use modality-specific encoders or additional fusion layers
and greatly mitigating the conflicts between modalities. IMP achieves
competitive performance on a wide range of downstream tasks including image
classification, video classification, image-text, and video-text retrieval.
Most notably, we train a sparse IMP-MoE-L focusing on video tasks that achieves
new state-of-the-art in zero-shot video classification. Our model achieves
77.0% on Kinetics-400, 76.8% on Kinetics-600, and 76.8% on Kinetics-700
zero-shot classification accuracy, improving the previous state-of-the-art by
+5%, +6.7%, and +5.8%, respectively, while using only 15% of their total
training computational cost.