EgoVLPv2 : Pré-entraînement vidéo-langage égocentrique avec fusion dans l'architecture de base
EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone
July 11, 2023
Auteurs: Shraman Pramanick, Yale Song, Sayan Nag, Kevin Qinghong Lin, Hardik Shah, Mike Zheng Shou, Rama Chellappa, Pengchuan Zhang
cs.AI
Résumé
Le pré-entraînement vidéo-langage (VLP) est devenu de plus en plus important grâce à sa capacité à généraliser à diverses tâches de vision et de langage. Cependant, les frameworks existants de VLP égocentrique utilisent des encodeurs vidéo et langage séparés et n'apprennent les informations intermodales spécifiques à la tâche que lors du réglage fin, ce qui limite le développement d'un système unifié. Dans ce travail, nous introduisons la deuxième génération de pré-entraînement vidéo-langage égocentrique (EgoVLPv2), une amélioration significative par rapport à la génération précédente, en intégrant la fusion intermodale directement dans les backbones vidéo et langage. EgoVLPv2 apprend des représentations vidéo-texte solides pendant le pré-entraînement et réutilise les modules d'attention intermodale pour supporter différentes tâches en aval de manière flexible et efficace, réduisant ainsi les coûts de réglage fin. De plus, notre stratégie de fusion dans le backbone est plus légère et plus efficace en termes de calcul que l'empilement de couches supplémentaires spécifiques à la fusion. Des expériences approfondies sur un large éventail de tâches VL démontrent l'efficacité d'EgoVLPv2 en atteignant des performances de pointe cohérentes par rapport à des bases de référence solides pour toutes les tâches en aval. Notre page de projet est disponible à l'adresse suivante : https://shramanpramanick.github.io/EgoVLPv2/.
English
Video-language pre-training (VLP) has become increasingly important due to
its ability to generalize to various vision and language tasks. However,
existing egocentric VLP frameworks utilize separate video and language encoders
and learn task-specific cross-modal information only during fine-tuning,
limiting the development of a unified system. In this work, we introduce the
second generation of egocentric video-language pre-training (EgoVLPv2), a
significant improvement from the previous generation, by incorporating
cross-modal fusion directly into the video and language backbones. EgoVLPv2
learns strong video-text representation during pre-training and reuses the
cross-modal attention modules to support different downstream tasks in a
flexible and efficient manner, reducing fine-tuning costs. Moreover, our
proposed fusion in the backbone strategy is more lightweight and
compute-efficient than stacking additional fusion-specific layers. Extensive
experiments on a wide range of VL tasks demonstrate the effectiveness of
EgoVLPv2 by achieving consistent state-of-the-art performance over strong
baselines across all downstream. Our project page can be found at
https://shramanpramanick.github.io/EgoVLPv2/.