MMG-Ego4D: Multimodale Generalisierung in der egozentrischen Aktionserkennung
MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition
May 12, 2023
Autoren: Xinyu Gong, Sreyas Mohan, Naina Dhingra, Jean-Charles Bazin, Yilei Li, Zhangyang Wang, Rakesh Ranjan
cs.AI
Zusammenfassung
In dieser Arbeit untersuchen wir ein neuartiges Problem in der egozentrischen Aktionserkennung, das wir als „Multimodale Generalisierung“ (MMG) bezeichnen. MMG zielt darauf ab, zu erforschen, wie Systeme generalisieren können, wenn Daten bestimmter Modalitäten begrenzt oder sogar vollständig fehlen. Wir untersuchen MMG gründlich im Kontext der standardmäßig überwachten Aktionserkennung sowie der anspruchsvolleren Few-Shot-Einstellung zum Erlernen neuer Aktionskategorien. MMG besteht aus zwei neuartigen Szenarien, die entwickelt wurden, um Sicherheits- und Effizienzüberlegungen in realen Anwendungen zu unterstützen: (1) Generalisierung bei fehlender Modalität, bei der einige Modalitäten, die während der Trainingszeit vorhanden waren, während der Inferenzzeit fehlen, und (2) Cross-modale Zero-Shot-Generalisierung, bei der die Modalitäten während der Inferenzzeit und der Trainingszeit disjunkt sind. Um diese Untersuchung zu ermöglichen, erstellen wir einen neuen Datensatz MMG-Ego4D, der Datenpunkte mit Video-, Audio- und Trägheitssensor (IMU)-Modalitäten enthält. Unser Datensatz basiert auf dem Ego4D-Datensatz, wurde jedoch von menschlichen Experten verarbeitet und gründlich neu annotiert, um die Forschung im MMG-Problem zu erleichtern. Wir bewerten eine Vielzahl von Modellen auf MMG-Ego4D und schlagen neue Methoden mit verbesserter Generalisierungsfähigkeit vor. Insbesondere führen wir ein neues Fusionsmodul mit Modalitäts-Dropout-Training, kontrastbasiertem Alignment-Training und einem neuartigen Cross-modalen prototypischen Verlust für eine bessere Few-Shot-Leistung ein. Wir hoffen, dass diese Studie als Benchmark dienen und zukünftige Forschungen zu multimodalen Generalisierungsproblemen leiten wird. Der Benchmark und der Code werden unter https://github.com/facebookresearch/MMG_Ego4D verfügbar sein.
English
In this paper, we study a novel problem in egocentric action recognition,
which we term as "Multimodal Generalization" (MMG). MMG aims to study how
systems can generalize when data from certain modalities is limited or even
completely missing. We thoroughly investigate MMG in the context of standard
supervised action recognition and the more challenging few-shot setting for
learning new action categories. MMG consists of two novel scenarios, designed
to support security, and efficiency considerations in real-world applications:
(1) missing modality generalization where some modalities that were present
during the train time are missing during the inference time, and (2)
cross-modal zero-shot generalization, where the modalities present during the
inference time and the training time are disjoint. To enable this
investigation, we construct a new dataset MMG-Ego4D containing data points with
video, audio, and inertial motion sensor (IMU) modalities. Our dataset is
derived from Ego4D dataset, but processed and thoroughly re-annotated by human
experts to facilitate research in the MMG problem. We evaluate a diverse array
of models on MMG-Ego4D and propose new methods with improved generalization
ability. In particular, we introduce a new fusion module with modality dropout
training, contrastive-based alignment training, and a novel cross-modal
prototypical loss for better few-shot performance. We hope this study will
serve as a benchmark and guide future research in multimodal generalization
problems. The benchmark and code will be available at
https://github.com/facebookresearch/MMG_Ego4D.