MMG-Ego4D: Generalização Multimodal no Reconhecimento de Ações Egocêntricas
MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition
May 12, 2023
Autores: Xinyu Gong, Sreyas Mohan, Naina Dhingra, Jean-Charles Bazin, Yilei Li, Zhangyang Wang, Rakesh Ranjan
cs.AI
Resumo
Neste artigo, estudamos um novo problema no reconhecimento de ações egocêntricas, que denominamos como "Generalização Multimodal" (MMG). A MMG visa investigar como os sistemas podem generalizar quando os dados de certas modalidades são limitados ou até mesmo completamente ausentes. Investigamos minuciosamente a MMG no contexto do reconhecimento de ações supervisionado padrão e no cenário mais desafiador de aprendizado de poucos exemplos para novas categorias de ações. A MMG consiste em dois cenários inéditos, projetados para apoiar considerações de segurança e eficiência em aplicações do mundo real: (1) generalização com modalidade ausente, onde algumas modalidades presentes durante o treinamento estão ausentes durante a inferência, e (2) generalização zero-shot multimodal, onde as modalidades presentes durante a inferência e o treinamento são disjuntas. Para viabilizar essa investigação, construímos um novo conjunto de dados, o MMG-Ego4D, contendo pontos de dados com modalidades de vídeo, áudio e sensores de movimento inercial (IMU). Nosso conjunto de dados é derivado do conjunto de dados Ego4D, mas processado e minuciosamente reanotado por especialistas humanos para facilitar a pesquisa no problema de MMG. Avaliamos uma variedade diversificada de modelos no MMG-Ego4D e propomos novos métodos com capacidade de generalização aprimorada. Em particular, introduzimos um novo módulo de fusão com treinamento de dropout de modalidade, treinamento de alinhamento baseado em contraste e uma nova função de perda prototípica multimodal para melhor desempenho em poucos exemplos. Esperamos que este estudo sirva como um benchmark e oriente pesquisas futuras em problemas de generalização multimodal. O benchmark e o código estarão disponíveis em https://github.com/facebookresearch/MMG_Ego4D.
English
In this paper, we study a novel problem in egocentric action recognition,
which we term as "Multimodal Generalization" (MMG). MMG aims to study how
systems can generalize when data from certain modalities is limited or even
completely missing. We thoroughly investigate MMG in the context of standard
supervised action recognition and the more challenging few-shot setting for
learning new action categories. MMG consists of two novel scenarios, designed
to support security, and efficiency considerations in real-world applications:
(1) missing modality generalization where some modalities that were present
during the train time are missing during the inference time, and (2)
cross-modal zero-shot generalization, where the modalities present during the
inference time and the training time are disjoint. To enable this
investigation, we construct a new dataset MMG-Ego4D containing data points with
video, audio, and inertial motion sensor (IMU) modalities. Our dataset is
derived from Ego4D dataset, but processed and thoroughly re-annotated by human
experts to facilitate research in the MMG problem. We evaluate a diverse array
of models on MMG-Ego4D and propose new methods with improved generalization
ability. In particular, we introduce a new fusion module with modality dropout
training, contrastive-based alignment training, and a novel cross-modal
prototypical loss for better few-shot performance. We hope this study will
serve as a benchmark and guide future research in multimodal generalization
problems. The benchmark and code will be available at
https://github.com/facebookresearch/MMG_Ego4D.