ChatPaper.aiChatPaper

MMG-Ego4D: Generalización Multimodal en el Reconocimiento de Acciones Egocéntricas

MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition

May 12, 2023
Autores: Xinyu Gong, Sreyas Mohan, Naina Dhingra, Jean-Charles Bazin, Yilei Li, Zhangyang Wang, Rakesh Ranjan
cs.AI

Resumen

En este artículo, estudiamos un problema novedoso en el reconocimiento de acciones egocéntricas, al que denominamos "Generalización Multimodal" (MMG, por sus siglas en inglés). MMG tiene como objetivo investigar cómo los sistemas pueden generalizar cuando los datos de ciertas modalidades son limitados o incluso están completamente ausentes. Investigamos exhaustivamente MMG en el contexto del reconocimiento de acciones supervisado estándar y en el escenario más desafiante de aprendizaje de pocos ejemplos para nuevas categorías de acciones. MMG consta de dos escenarios novedosos, diseñados para abordar consideraciones de seguridad y eficiencia en aplicaciones del mundo real: (1) generalización con modalidades faltantes, donde algunas modalidades presentes durante el entrenamiento están ausentes durante la inferencia, y (2) generalización multimodal de cero ejemplos, donde las modalidades presentes durante la inferencia y el entrenamiento son disjuntas. Para facilitar esta investigación, construimos un nuevo conjunto de datos, MMG-Ego4D, que contiene puntos de datos con modalidades de video, audio y sensores de movimiento inercial (IMU). Nuestro conjunto de datos se deriva del conjunto de datos Ego4D, pero ha sido procesado y reanotado exhaustivamente por expertos humanos para facilitar la investigación en el problema de MMG. Evaluamos una amplia variedad de modelos en MMG-Ego4D y proponemos nuevos métodos con una capacidad de generalización mejorada. En particular, introducimos un nuevo módulo de fusión con entrenamiento de abandono de modalidades, entrenamiento de alineación basado en contraste y una nueva función de pérdida prototípica multimodal para un mejor rendimiento en el aprendizaje de pocos ejemplos. Esperamos que este estudio sirva como un punto de referencia y guíe futuras investigaciones en problemas de generalización multimodal. El punto de referencia y el código estarán disponibles en https://github.com/facebookresearch/MMG_Ego4D.
English
In this paper, we study a novel problem in egocentric action recognition, which we term as "Multimodal Generalization" (MMG). MMG aims to study how systems can generalize when data from certain modalities is limited or even completely missing. We thoroughly investigate MMG in the context of standard supervised action recognition and the more challenging few-shot setting for learning new action categories. MMG consists of two novel scenarios, designed to support security, and efficiency considerations in real-world applications: (1) missing modality generalization where some modalities that were present during the train time are missing during the inference time, and (2) cross-modal zero-shot generalization, where the modalities present during the inference time and the training time are disjoint. To enable this investigation, we construct a new dataset MMG-Ego4D containing data points with video, audio, and inertial motion sensor (IMU) modalities. Our dataset is derived from Ego4D dataset, but processed and thoroughly re-annotated by human experts to facilitate research in the MMG problem. We evaluate a diverse array of models on MMG-Ego4D and propose new methods with improved generalization ability. In particular, we introduce a new fusion module with modality dropout training, contrastive-based alignment training, and a novel cross-modal prototypical loss for better few-shot performance. We hope this study will serve as a benchmark and guide future research in multimodal generalization problems. The benchmark and code will be available at https://github.com/facebookresearch/MMG_Ego4D.
PDF10December 15, 2024