MMG-Ego4D: Generalizzazione Multimodale nel Riconoscimento di Azioni Egocentriche

Abstract

In questo articolo, studiamo un nuovo problema nel riconoscimento di azioni egocentriche, che definiamo come "Generalizzazione Multimodale" (MMG). L'obiettivo della MMG è studiare come i sistemi possano generalizzare quando i dati di alcune modalità sono limitati o addirittura completamente assenti. Investigiamo approfonditamente la MMG nel contesto del riconoscimento di azioni supervisionato standard e nel contesto più impegnativo del few-shot learning per nuove categorie di azioni. La MMG comprende due scenari innovativi, progettati per supportare considerazioni di sicurezza ed efficienza nelle applicazioni del mondo reale: (1) generalizzazione con modalità mancanti, in cui alcune modalità presenti durante l'addestramento sono assenti durante l'inferenza, e (2) generalizzazione zero-shot cross-modale, in cui le modalità presenti durante l'inferenza e l'addestramento sono disgiunte. Per abilitare questa indagine, costruiamo un nuovo dataset chiamato MMG-Ego4D, contenente punti dati con modalità video, audio e sensori di movimento inerziale (IMU). Il nostro dataset è derivato dal dataset Ego4D, ma è stato elaborato e completamente ri-annotato da esperti umani per facilitare la ricerca sul problema della MMG. Valutiamo una vasta gamma di modelli su MMG-Ego4D e proponiamo nuovi metodi con una migliore capacità di generalizzazione. In particolare, introduciamo un nuovo modulo di fusione con addestramento a dropout modale, addestramento di allineamento basato su contrasto e una nuova funzione di perdita prototipale cross-modale per migliorare le prestazioni nel few-shot. Speriamo che questo studio possa servire come benchmark e guidare future ricerche sui problemi di generalizzazione multimodale. Il benchmark e il codice saranno disponibili all'indirizzo https://github.com/facebookresearch/MMG_Ego4D.

English

In this paper, we study a novel problem in egocentric action recognition, which we term as "Multimodal Generalization" (MMG). MMG aims to study how systems can generalize when data from certain modalities is limited or even completely missing. We thoroughly investigate MMG in the context of standard supervised action recognition and the more challenging few-shot setting for learning new action categories. MMG consists of two novel scenarios, designed to support security, and efficiency considerations in real-world applications: (1) missing modality generalization where some modalities that were present during the train time are missing during the inference time, and (2) cross-modal zero-shot generalization, where the modalities present during the inference time and the training time are disjoint. To enable this investigation, we construct a new dataset MMG-Ego4D containing data points with video, audio, and inertial motion sensor (IMU) modalities. Our dataset is derived from Ego4D dataset, but processed and thoroughly re-annotated by human experts to facilitate research in the MMG problem. We evaluate a diverse array of models on MMG-Ego4D and propose new methods with improved generalization ability. In particular, we introduce a new fusion module with modality dropout training, contrastive-based alignment training, and a novel cross-modal prototypical loss for better few-shot performance. We hope this study will serve as a benchmark and guide future research in multimodal generalization problems. The benchmark and code will be available at https://github.com/facebookresearch/MMG_Ego4D.

MMG-Ego4D: Generalizzazione Multimodale nel Riconoscimento di Azioni Egocentriche

MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition

Abstract

Support