Descenso de Gradiente Alternante y Mezcla de Expertos para la Percepción Multimodal Integrada
Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception
May 10, 2023
Autores: Hassan Akbari, Dan Kondratyuk, Yin Cui, Rachel Hornung, Huisheng Wang, Hartwig Adam
cs.AI
Resumen
Presentamos Percepción Multimodal Integrada (IMP, por sus siglas en inglés), un enfoque simple y escalable para el entrenamiento y modelado multimodal de múltiples tareas. IMP integra entradas multimodales, incluyendo imágenes, video, texto y audio, en un único codificador Transformer con componentes específicos de modalidad mínimos. IMP utiliza un diseño novedoso que combina Descenso de Gradiente Alternante (AGD) y Mezcla de Expertos (MoE) para un escalado eficiente del modelo y las tareas. Realizamos estudios empíricos exhaustivos sobre IMP y revelamos las siguientes conclusiones clave: 1) realizar actualizaciones de descenso de gradiente alternando entre diversas modalidades heterogéneas, funciones de pérdida y tareas, mientras se varían las resoluciones de entrada, mejora eficientemente la comprensión multimodal. 2) la esparsificación del modelo con MoE en un único codificador agnóstico a la modalidad mejora sustancialmente el rendimiento, superando a los modelos densos que utilizan codificadores específicos por modalidad o capas de fusión adicionales, y mitiga en gran medida los conflictos entre modalidades. IMP logra un rendimiento competitivo en una amplia gama de tareas posteriores, incluyendo clasificación de imágenes, clasificación de videos, y recuperación de imagen-texto y video-texto. Más notablemente, entrenamos un IMP-MoE-L enfocado en tareas de video que alcanza un nuevo estado del arte en clasificación de video zero-shot. Nuestro modelo logra un 77.0% en Kinetics-400, un 76.8% en Kinetics-600 y un 76.8% en Kinetics-700 en precisión de clasificación zero-shot, mejorando el estado del arte anterior en +5%, +6.7% y +5.8%, respectivamente, mientras utiliza solo el 15% de su costo computacional total de entrenamiento.
English
We present Integrated Multimodal Perception (IMP), a simple and scalable
multimodal multi-task training and modeling approach. IMP integrates multimodal
inputs including image, video, text, and audio into a single Transformer
encoder with minimal modality-specific components. IMP makes use of a novel
design that combines Alternating Gradient Descent (AGD) and Mixture-of-Experts
(MoE) for efficient model \& task scaling. We conduct extensive empirical
studies about IMP and reveal the following key insights: 1) performing gradient
descent updates by alternating on diverse heterogeneous modalities, loss
functions, and tasks, while also varying input resolutions, efficiently
improves multimodal understanding. 2) model sparsification with MoE on a single
modality-agnostic encoder substantially improves the performance, outperforming
dense models that use modality-specific encoders or additional fusion layers
and greatly mitigating the conflicts between modalities. IMP achieves
competitive performance on a wide range of downstream tasks including image
classification, video classification, image-text, and video-text retrieval.
Most notably, we train a sparse IMP-MoE-L focusing on video tasks that achieves
new state-of-the-art in zero-shot video classification. Our model achieves
77.0% on Kinetics-400, 76.8% on Kinetics-600, and 76.8% on Kinetics-700
zero-shot classification accuracy, improving the previous state-of-the-art by
+5%, +6.7%, and +5.8%, respectively, while using only 15% of their total
training computational cost.