EgoVLPv2: Egocentrisches Video-Sprache-Pre-training mit Fusion im Backbone
EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone
July 11, 2023
Autoren: Shraman Pramanick, Yale Song, Sayan Nag, Kevin Qinghong Lin, Hardik Shah, Mike Zheng Shou, Rama Chellappa, Pengchuan Zhang
cs.AI
Zusammenfassung
Video-Language Pre-training (VLP) hat aufgrund seiner Fähigkeit, sich auf verschiedene Vision- und Sprachaufgaben zu verallgemeinern, zunehmend an Bedeutung gewonnen. Bisherige egocentrische VLP-Frameworks verwenden jedoch separate Video- und Sprach-Encoder und lernen aufgabenspezifische cross-modale Informationen erst während des Fine-Tunings, was die Entwicklung eines einheitlichen Systems einschränkt. In dieser Arbeit stellen wir die zweite Generation des egocentrischen Video-Language Pre-trainings (EgoVLPv2) vor, eine deutliche Verbesserung gegenüber der vorherigen Generation, indem wir die cross-modale Fusion direkt in die Video- und Sprach-Backbones integrieren. EgoVLPv2 lernt während des Pre-Trainings starke Video-Text-Repräsentationen und nutzt die cross-modalen Aufmerksamkeitsmodule wiederverwendbar, um verschiedene Downstream-Aufgaben flexibel und effizient zu unterstützen, wodurch die Kosten für das Fine-Tuning reduziert werden. Darüber hinaus ist unsere vorgeschlagene Fusion-in-den-Backbone-Strategie ressourcenschonender und recheneffizienter als das Hinzufügen zusätzlicher fusion-spezifischer Schichten. Umfangreiche Experimente auf einer Vielzahl von VL-Aufgaben demonstrieren die Effektivität von EgoVLPv2, indem konsistent state-of-the-art Leistungen gegenüber starken Baselines in allen Downstream-Aufgaben erzielt werden. Unsere Projektseite finden Sie unter https://shramanpramanick.github.io/EgoVLPv2/.
English
Video-language pre-training (VLP) has become increasingly important due to
its ability to generalize to various vision and language tasks. However,
existing egocentric VLP frameworks utilize separate video and language encoders
and learn task-specific cross-modal information only during fine-tuning,
limiting the development of a unified system. In this work, we introduce the
second generation of egocentric video-language pre-training (EgoVLPv2), a
significant improvement from the previous generation, by incorporating
cross-modal fusion directly into the video and language backbones. EgoVLPv2
learns strong video-text representation during pre-training and reuses the
cross-modal attention modules to support different downstream tasks in a
flexible and efficient manner, reducing fine-tuning costs. Moreover, our
proposed fusion in the backbone strategy is more lightweight and
compute-efficient than stacking additional fusion-specific layers. Extensive
experiments on a wide range of VL tasks demonstrate the effectiveness of
EgoVLPv2 by achieving consistent state-of-the-art performance over strong
baselines across all downstream. Our project page can be found at
https://shramanpramanick.github.io/EgoVLPv2/.