MMG-Ego4D : Généralisation multimodale dans la reconnaissance d'actions égocentriques
MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition
May 12, 2023
Auteurs: Xinyu Gong, Sreyas Mohan, Naina Dhingra, Jean-Charles Bazin, Yilei Li, Zhangyang Wang, Rakesh Ranjan
cs.AI
Résumé
Dans cet article, nous étudions un nouveau problème dans la reconnaissance d'actions égocentriques, que nous appelons "Généralisation Multimodale" (MMG). La MMG vise à explorer comment les systèmes peuvent généraliser lorsque les données de certaines modalités sont limitées ou même totalement absentes. Nous examinons en profondeur la MMG dans le contexte de la reconnaissance d'actions supervisée standard et dans le cadre plus complexe de l'apprentissage de nouvelles catégories d'actions en few-shot. La MMG comprend deux scénarios novateurs, conçus pour répondre aux considérations de sécurité et d'efficacité dans les applications réelles : (1) la généralisation en cas de modalité manquante, où certaines modalités présentes pendant l'entraînement sont absentes lors de l'inférence, et (2) la généralisation zero-shot intermodale, où les modalités présentes pendant l'inférence et l'entraînement sont disjointes. Pour permettre cette investigation, nous construisons un nouveau jeu de données, MMG-Ego4D, contenant des points de données avec des modalités vidéo, audio et capteurs de mouvement inertiels (IMU). Notre jeu de données est dérivé du jeu de données Ego4D, mais traité et ré-annoté minutieusement par des experts humains pour faciliter la recherche sur le problème de la MMG. Nous évaluons une diversité de modèles sur MMG-Ego4D et proposons de nouvelles méthodes avec une capacité de généralisation améliorée. En particulier, nous introduisons un nouveau module de fusion avec un entraînement par abandon de modalité, un entraînement d'alignement basé sur la contraste, et une nouvelle fonction de perte prototypique intermodale pour une meilleure performance en few-shot. Nous espérons que cette étude servira de référence et guidera les recherches futures sur les problèmes de généralisation multimodale. Le benchmark et le code seront disponibles à l'adresse https://github.com/facebookresearch/MMG_Ego4D.
English
In this paper, we study a novel problem in egocentric action recognition,
which we term as "Multimodal Generalization" (MMG). MMG aims to study how
systems can generalize when data from certain modalities is limited or even
completely missing. We thoroughly investigate MMG in the context of standard
supervised action recognition and the more challenging few-shot setting for
learning new action categories. MMG consists of two novel scenarios, designed
to support security, and efficiency considerations in real-world applications:
(1) missing modality generalization where some modalities that were present
during the train time are missing during the inference time, and (2)
cross-modal zero-shot generalization, where the modalities present during the
inference time and the training time are disjoint. To enable this
investigation, we construct a new dataset MMG-Ego4D containing data points with
video, audio, and inertial motion sensor (IMU) modalities. Our dataset is
derived from Ego4D dataset, but processed and thoroughly re-annotated by human
experts to facilitate research in the MMG problem. We evaluate a diverse array
of models on MMG-Ego4D and propose new methods with improved generalization
ability. In particular, we introduce a new fusion module with modality dropout
training, contrastive-based alignment training, and a novel cross-modal
prototypical loss for better few-shot performance. We hope this study will
serve as a benchmark and guide future research in multimodal generalization
problems. The benchmark and code will be available at
https://github.com/facebookresearch/MMG_Ego4D.