MMG-Ego4D: Multimodale Generalisierung in der egozentrischen Aktionserkennung

Zusammenfassung

In dieser Arbeit untersuchen wir ein neuartiges Problem in der egozentrischen Aktionserkennung, das wir als „Multimodale Generalisierung“ (MMG) bezeichnen. MMG zielt darauf ab, zu erforschen, wie Systeme generalisieren können, wenn Daten bestimmter Modalitäten begrenzt oder sogar vollständig fehlen. Wir untersuchen MMG gründlich im Kontext der standardmäßig überwachten Aktionserkennung sowie der anspruchsvolleren Few-Shot-Einstellung zum Erlernen neuer Aktionskategorien. MMG besteht aus zwei neuartigen Szenarien, die entwickelt wurden, um Sicherheits- und Effizienzüberlegungen in realen Anwendungen zu unterstützen: (1) Generalisierung bei fehlender Modalität, bei der einige Modalitäten, die während der Trainingszeit vorhanden waren, während der Inferenzzeit fehlen, und (2) Cross-modale Zero-Shot-Generalisierung, bei der die Modalitäten während der Inferenzzeit und der Trainingszeit disjunkt sind. Um diese Untersuchung zu ermöglichen, erstellen wir einen neuen Datensatz MMG-Ego4D, der Datenpunkte mit Video-, Audio- und Trägheitssensor (IMU)-Modalitäten enthält. Unser Datensatz basiert auf dem Ego4D-Datensatz, wurde jedoch von menschlichen Experten verarbeitet und gründlich neu annotiert, um die Forschung im MMG-Problem zu erleichtern. Wir bewerten eine Vielzahl von Modellen auf MMG-Ego4D und schlagen neue Methoden mit verbesserter Generalisierungsfähigkeit vor. Insbesondere führen wir ein neues Fusionsmodul mit Modalitäts-Dropout-Training, kontrastbasiertem Alignment-Training und einem neuartigen Cross-modalen prototypischen Verlust für eine bessere Few-Shot-Leistung ein. Wir hoffen, dass diese Studie als Benchmark dienen und zukünftige Forschungen zu multimodalen Generalisierungsproblemen leiten wird. Der Benchmark und der Code werden unter https://github.com/facebookresearch/MMG_Ego4D verfügbar sein.

English

In this paper, we study a novel problem in egocentric action recognition, which we term as "Multimodal Generalization" (MMG). MMG aims to study how systems can generalize when data from certain modalities is limited or even completely missing. We thoroughly investigate MMG in the context of standard supervised action recognition and the more challenging few-shot setting for learning new action categories. MMG consists of two novel scenarios, designed to support security, and efficiency considerations in real-world applications: (1) missing modality generalization where some modalities that were present during the train time are missing during the inference time, and (2) cross-modal zero-shot generalization, where the modalities present during the inference time and the training time are disjoint. To enable this investigation, we construct a new dataset MMG-Ego4D containing data points with video, audio, and inertial motion sensor (IMU) modalities. Our dataset is derived from Ego4D dataset, but processed and thoroughly re-annotated by human experts to facilitate research in the MMG problem. We evaluate a diverse array of models on MMG-Ego4D and propose new methods with improved generalization ability. In particular, we introduce a new fusion module with modality dropout training, contrastive-based alignment training, and a novel cross-modal prototypical loss for better few-shot performance. We hope this study will serve as a benchmark and guide future research in multimodal generalization problems. The benchmark and code will be available at https://github.com/facebookresearch/MMG_Ego4D.

MMG-Ego4D: Multimodale Generalisierung in der egozentrischen Aktionserkennung

MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition

Zusammenfassung

Support