MMG-Ego4D: Multimodale Generalisatie in Egocentrische Actieherkenning

Samenvatting

In dit artikel bestuderen we een nieuw probleem in egocentrische actieherkenning, dat we "Multimodale Generalisatie" (MMG) noemen. MMG heeft als doel te onderzoeken hoe systemen kunnen generaliseren wanneer gegevens van bepaalde modaliteiten beperkt of zelfs volledig afwezig zijn. We onderzoeken MMG grondig in de context van standaard gesuperviseerde actieherkenning en de uitdagendere few-shot instelling voor het leren van nieuwe actiecategorieën. MMG bestaat uit twee nieuwe scenario's, ontworpen om veiligheids- en efficiëntieoverwegingen in real-world toepassingen te ondersteunen: (1) generalisatie bij ontbrekende modaliteiten, waarbij sommige modaliteiten die tijdens de training aanwezig waren, tijdens de inferentie ontbreken, en (2) cross-modale zero-shot generalisatie, waarbij de modaliteiten die tijdens de inferentie en de training aanwezig zijn, disjunct zijn. Om dit onderzoek mogelijk te maken, construeren we een nieuwe dataset MMG-Ego4D met datapunten met video-, audio- en traagheidsbewegingssensor (IMU)-modaliteiten. Onze dataset is afgeleid van de Ego4D-dataset, maar is verwerkt en grondig opnieuw geannoteerd door menselijke experts om onderzoek naar het MMG-probleem te faciliteren. We evalueren een diverse reeks modellen op MMG-Ego4D en stellen nieuwe methoden voor met een verbeterde generalisatiecapaciteit. In het bijzonder introduceren we een nieuwe fusiemodule met modaliteitsdropout-training, contrastieve aligneringstraining en een nieuwe cross-modale prototypische verliesfunctie voor betere few-shot prestaties. We hopen dat deze studie zal dienen als een benchmark en toekomstig onderzoek naar multimodale generalisatieproblemen zal begeleiden. De benchmark en code zullen beschikbaar zijn op https://github.com/facebookresearch/MMG_Ego4D.

English

In this paper, we study a novel problem in egocentric action recognition, which we term as "Multimodal Generalization" (MMG). MMG aims to study how systems can generalize when data from certain modalities is limited or even completely missing. We thoroughly investigate MMG in the context of standard supervised action recognition and the more challenging few-shot setting for learning new action categories. MMG consists of two novel scenarios, designed to support security, and efficiency considerations in real-world applications: (1) missing modality generalization where some modalities that were present during the train time are missing during the inference time, and (2) cross-modal zero-shot generalization, where the modalities present during the inference time and the training time are disjoint. To enable this investigation, we construct a new dataset MMG-Ego4D containing data points with video, audio, and inertial motion sensor (IMU) modalities. Our dataset is derived from Ego4D dataset, but processed and thoroughly re-annotated by human experts to facilitate research in the MMG problem. We evaluate a diverse array of models on MMG-Ego4D and propose new methods with improved generalization ability. In particular, we introduce a new fusion module with modality dropout training, contrastive-based alignment training, and a novel cross-modal prototypical loss for better few-shot performance. We hope this study will serve as a benchmark and guide future research in multimodal generalization problems. The benchmark and code will be available at https://github.com/facebookresearch/MMG_Ego4D.

MMG-Ego4D: Multimodale Generalisatie in Egocentrische Actieherkenning

MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition

Samenvatting

Support