Descida de Gradiente Alternada e Mistura de Especialistas para Percepção Multimodal Integrada

Resumo

Apresentamos a Percepção Multimodal Integrada (IMP, do inglês Integrated Multimodal Perception), uma abordagem simples e escalável para treinamento e modelagem multimodal e multitarefa. A IMP integra entradas multimodais, incluindo imagem, vídeo, texto e áudio, em um único codificador Transformer com componentes específicos de modalidade mínimos. A IMP utiliza um design inovador que combina Descida de Gradiente Alternada (AGD, do inglês Alternating Gradient Descent) e Mistura de Especialistas (MoE, do inglês Mixture-of-Experts) para uma escalabilidade eficiente de modelos e tarefas. Realizamos estudos empíricos extensivos sobre a IMP e revelamos os seguintes insights principais: 1) realizar atualizações de descida de gradiente alternando entre diversas modalidades heterogêneas, funções de perda e tarefas, enquanto também varia as resoluções de entrada, melhora eficientemente a compreensão multimodal. 2) a esparsificação do modelo com MoE em um único codificador agnóstico à modalidade melhora substancialmente o desempenho, superando modelos densos que usam codificadores específicos por modalidade ou camadas adicionais de fusão, e mitigando significativamente os conflitos entre modalidades. A IMP alcança desempenho competitivo em uma ampla gama de tarefas subsequentes, incluindo classificação de imagens, classificação de vídeos, recuperação de imagem-texto e vídeo-texto. Mais notavelmente, treinamos uma IMP-MoE-L esparsa focada em tarefas de vídeo que alcança um novo estado da arte em classificação de vídeo zero-shot. Nosso modelo alcança 77,0% no Kinetics-400, 76,8% no Kinetics-600 e 76,8% no Kinetics-700 em precisão de classificação zero-shot, melhorando o estado da arte anterior em +5%, +6,7% e +5,8%, respectivamente, enquanto utiliza apenas 15% do custo computacional total de treinamento desses modelos.

English

We present Integrated Multimodal Perception (IMP), a simple and scalable multimodal multi-task training and modeling approach. IMP integrates multimodal inputs including image, video, text, and audio into a single Transformer encoder with minimal modality-specific components. IMP makes use of a novel design that combines Alternating Gradient Descent (AGD) and Mixture-of-Experts (MoE) for efficient model \& task scaling. We conduct extensive empirical studies about IMP and reveal the following key insights: 1) performing gradient descent updates by alternating on diverse heterogeneous modalities, loss functions, and tasks, while also varying input resolutions, efficiently improves multimodal understanding. 2) model sparsification with MoE on a single modality-agnostic encoder substantially improves the performance, outperforming dense models that use modality-specific encoders or additional fusion layers and greatly mitigating the conflicts between modalities. IMP achieves competitive performance on a wide range of downstream tasks including image classification, video classification, image-text, and video-text retrieval. Most notably, we train a sparse IMP-MoE-L focusing on video tasks that achieves new state-of-the-art in zero-shot video classification. Our model achieves 77.0% on Kinetics-400, 76.8% on Kinetics-600, and 76.8% on Kinetics-700 zero-shot classification accuracy, improving the previous state-of-the-art by +5%, +6.7%, and +5.8%, respectively, while using only 15% of their total training computational cost.

Descida de Gradiente Alternada e Mistura de Especialistas para Percepção Multimodal Integrada

Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception

Resumo

Support