MMG-Ego4D: Мультимодальная генерализация в распознавании эгоцентрических действий

Аннотация

В данной статье мы исследуем новую задачу в области распознавания действий от первого лица, которую мы называем "Мультимодальное обобщение" (Multimodal Generalization, MMG). MMG направлено на изучение того, как системы могут обобщать, когда данные из определенных модальностей ограничены или даже полностью отсутствуют. Мы подробно исследуем MMG в контексте стандартного обучения с учителем для распознавания действий, а также в более сложной задаче обучения с малым количеством примеров для новых категорий действий. MMG включает два новых сценария, разработанных с учетом требований безопасности и эффективности в реальных приложениях: (1) обобщение при отсутствии модальностей, когда некоторые модальности, присутствовавшие во время обучения, отсутствуют во время вывода, и (2) кросс-модальное обобщение с нулевым количеством примеров, когда модальности, присутствующие во время вывода и обучения, не пересекаются. Для проведения этого исследования мы создали новый набор данных MMG-Ego4D, содержащий данные с модальностями видео, аудио и инерциальных датчиков движения (IMU). Наш набор данных основан на наборе Ego4D, но обработан и тщательно переаннотирован экспертами для облегчения исследований в области MMG. Мы оцениваем разнообразные модели на MMG-Ego4D и предлагаем новые методы с улучшенной способностью к обобщению. В частности, мы вводим новый модуль слияния с обучением с выпадением модальностей, контрастное обучение для выравнивания и новую кросс-модальную прототипическую функцию потерь для улучшения производительности в задачах с малым количеством примеров. Мы надеемся, что это исследование послужит эталоном и будет направлять будущие исследования в области мультимодального обобщения. Эталонные данные и код будут доступны по адресу https://github.com/facebookresearch/MMG_Ego4D.

English

In this paper, we study a novel problem in egocentric action recognition, which we term as "Multimodal Generalization" (MMG). MMG aims to study how systems can generalize when data from certain modalities is limited or even completely missing. We thoroughly investigate MMG in the context of standard supervised action recognition and the more challenging few-shot setting for learning new action categories. MMG consists of two novel scenarios, designed to support security, and efficiency considerations in real-world applications: (1) missing modality generalization where some modalities that were present during the train time are missing during the inference time, and (2) cross-modal zero-shot generalization, where the modalities present during the inference time and the training time are disjoint. To enable this investigation, we construct a new dataset MMG-Ego4D containing data points with video, audio, and inertial motion sensor (IMU) modalities. Our dataset is derived from Ego4D dataset, but processed and thoroughly re-annotated by human experts to facilitate research in the MMG problem. We evaluate a diverse array of models on MMG-Ego4D and propose new methods with improved generalization ability. In particular, we introduce a new fusion module with modality dropout training, contrastive-based alignment training, and a novel cross-modal prototypical loss for better few-shot performance. We hope this study will serve as a benchmark and guide future research in multimodal generalization problems. The benchmark and code will be available at https://github.com/facebookresearch/MMG_Ego4D.

MMG-Ego4D: Мультимодальная генерализация в распознавании эгоцентрических действий

MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition

Аннотация

Support