MMG-Ego4D: Мультимодальная генерализация в распознавании эгоцентрических действий
MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition
May 12, 2023
Авторы: Xinyu Gong, Sreyas Mohan, Naina Dhingra, Jean-Charles Bazin, Yilei Li, Zhangyang Wang, Rakesh Ranjan
cs.AI
Аннотация
В данной статье мы исследуем новую задачу в области распознавания действий от первого лица, которую мы называем "Мультимодальное обобщение" (Multimodal Generalization, MMG). MMG направлено на изучение того, как системы могут обобщать, когда данные из определенных модальностей ограничены или даже полностью отсутствуют. Мы подробно исследуем MMG в контексте стандартного обучения с учителем для распознавания действий, а также в более сложной задаче обучения с малым количеством примеров для новых категорий действий. MMG включает два новых сценария, разработанных с учетом требований безопасности и эффективности в реальных приложениях: (1) обобщение при отсутствии модальностей, когда некоторые модальности, присутствовавшие во время обучения, отсутствуют во время вывода, и (2) кросс-модальное обобщение с нулевым количеством примеров, когда модальности, присутствующие во время вывода и обучения, не пересекаются. Для проведения этого исследования мы создали новый набор данных MMG-Ego4D, содержащий данные с модальностями видео, аудио и инерциальных датчиков движения (IMU). Наш набор данных основан на наборе Ego4D, но обработан и тщательно переаннотирован экспертами для облегчения исследований в области MMG. Мы оцениваем разнообразные модели на MMG-Ego4D и предлагаем новые методы с улучшенной способностью к обобщению. В частности, мы вводим новый модуль слияния с обучением с выпадением модальностей, контрастное обучение для выравнивания и новую кросс-модальную прототипическую функцию потерь для улучшения производительности в задачах с малым количеством примеров. Мы надеемся, что это исследование послужит эталоном и будет направлять будущие исследования в области мультимодального обобщения. Эталонные данные и код будут доступны по адресу https://github.com/facebookresearch/MMG_Ego4D.
English
In this paper, we study a novel problem in egocentric action recognition,
which we term as "Multimodal Generalization" (MMG). MMG aims to study how
systems can generalize when data from certain modalities is limited or even
completely missing. We thoroughly investigate MMG in the context of standard
supervised action recognition and the more challenging few-shot setting for
learning new action categories. MMG consists of two novel scenarios, designed
to support security, and efficiency considerations in real-world applications:
(1) missing modality generalization where some modalities that were present
during the train time are missing during the inference time, and (2)
cross-modal zero-shot generalization, where the modalities present during the
inference time and the training time are disjoint. To enable this
investigation, we construct a new dataset MMG-Ego4D containing data points with
video, audio, and inertial motion sensor (IMU) modalities. Our dataset is
derived from Ego4D dataset, but processed and thoroughly re-annotated by human
experts to facilitate research in the MMG problem. We evaluate a diverse array
of models on MMG-Ego4D and propose new methods with improved generalization
ability. In particular, we introduce a new fusion module with modality dropout
training, contrastive-based alignment training, and a novel cross-modal
prototypical loss for better few-shot performance. We hope this study will
serve as a benchmark and guide future research in multimodal generalization
problems. The benchmark and code will be available at
https://github.com/facebookresearch/MMG_Ego4D.