MMG-Ego4D: Generalização Multimodal no Reconhecimento de Ações Egocêntricas

Resumo

Neste artigo, estudamos um novo problema no reconhecimento de ações egocêntricas, que denominamos como "Generalização Multimodal" (MMG). A MMG visa investigar como os sistemas podem generalizar quando os dados de certas modalidades são limitados ou até mesmo completamente ausentes. Investigamos minuciosamente a MMG no contexto do reconhecimento de ações supervisionado padrão e no cenário mais desafiador de aprendizado de poucos exemplos para novas categorias de ações. A MMG consiste em dois cenários inéditos, projetados para apoiar considerações de segurança e eficiência em aplicações do mundo real: (1) generalização com modalidade ausente, onde algumas modalidades presentes durante o treinamento estão ausentes durante a inferência, e (2) generalização zero-shot multimodal, onde as modalidades presentes durante a inferência e o treinamento são disjuntas. Para viabilizar essa investigação, construímos um novo conjunto de dados, o MMG-Ego4D, contendo pontos de dados com modalidades de vídeo, áudio e sensores de movimento inercial (IMU). Nosso conjunto de dados é derivado do conjunto de dados Ego4D, mas processado e minuciosamente reanotado por especialistas humanos para facilitar a pesquisa no problema de MMG. Avaliamos uma variedade diversificada de modelos no MMG-Ego4D e propomos novos métodos com capacidade de generalização aprimorada. Em particular, introduzimos um novo módulo de fusão com treinamento de dropout de modalidade, treinamento de alinhamento baseado em contraste e uma nova função de perda prototípica multimodal para melhor desempenho em poucos exemplos. Esperamos que este estudo sirva como um benchmark e oriente pesquisas futuras em problemas de generalização multimodal. O benchmark e o código estarão disponíveis em https://github.com/facebookresearch/MMG_Ego4D.

English

In this paper, we study a novel problem in egocentric action recognition, which we term as "Multimodal Generalization" (MMG). MMG aims to study how systems can generalize when data from certain modalities is limited or even completely missing. We thoroughly investigate MMG in the context of standard supervised action recognition and the more challenging few-shot setting for learning new action categories. MMG consists of two novel scenarios, designed to support security, and efficiency considerations in real-world applications: (1) missing modality generalization where some modalities that were present during the train time are missing during the inference time, and (2) cross-modal zero-shot generalization, where the modalities present during the inference time and the training time are disjoint. To enable this investigation, we construct a new dataset MMG-Ego4D containing data points with video, audio, and inertial motion sensor (IMU) modalities. Our dataset is derived from Ego4D dataset, but processed and thoroughly re-annotated by human experts to facilitate research in the MMG problem. We evaluate a diverse array of models on MMG-Ego4D and propose new methods with improved generalization ability. In particular, we introduce a new fusion module with modality dropout training, contrastive-based alignment training, and a novel cross-modal prototypical loss for better few-shot performance. We hope this study will serve as a benchmark and guide future research in multimodal generalization problems. The benchmark and code will be available at https://github.com/facebookresearch/MMG_Ego4D.

MMG-Ego4D: Generalização Multimodal no Reconhecimento de Ações Egocêntricas

MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition

Resumo

Support