EgoVLPv2: Egocentrisches Video-Sprache-Pre-training mit Fusion im Backbone

Zusammenfassung

Video-Language Pre-training (VLP) hat aufgrund seiner Fähigkeit, sich auf verschiedene Vision- und Sprachaufgaben zu verallgemeinern, zunehmend an Bedeutung gewonnen. Bisherige egocentrische VLP-Frameworks verwenden jedoch separate Video- und Sprach-Encoder und lernen aufgabenspezifische cross-modale Informationen erst während des Fine-Tunings, was die Entwicklung eines einheitlichen Systems einschränkt. In dieser Arbeit stellen wir die zweite Generation des egocentrischen Video-Language Pre-trainings (EgoVLPv2) vor, eine deutliche Verbesserung gegenüber der vorherigen Generation, indem wir die cross-modale Fusion direkt in die Video- und Sprach-Backbones integrieren. EgoVLPv2 lernt während des Pre-Trainings starke Video-Text-Repräsentationen und nutzt die cross-modalen Aufmerksamkeitsmodule wiederverwendbar, um verschiedene Downstream-Aufgaben flexibel und effizient zu unterstützen, wodurch die Kosten für das Fine-Tuning reduziert werden. Darüber hinaus ist unsere vorgeschlagene Fusion-in-den-Backbone-Strategie ressourcenschonender und recheneffizienter als das Hinzufügen zusätzlicher fusion-spezifischer Schichten. Umfangreiche Experimente auf einer Vielzahl von VL-Aufgaben demonstrieren die Effektivität von EgoVLPv2, indem konsistent state-of-the-art Leistungen gegenüber starken Baselines in allen Downstream-Aufgaben erzielt werden. Unsere Projektseite finden Sie unter https://shramanpramanick.github.io/EgoVLPv2/.

English

Video-language pre-training (VLP) has become increasingly important due to its ability to generalize to various vision and language tasks. However, existing egocentric VLP frameworks utilize separate video and language encoders and learn task-specific cross-modal information only during fine-tuning, limiting the development of a unified system. In this work, we introduce the second generation of egocentric video-language pre-training (EgoVLPv2), a significant improvement from the previous generation, by incorporating cross-modal fusion directly into the video and language backbones. EgoVLPv2 learns strong video-text representation during pre-training and reuses the cross-modal attention modules to support different downstream tasks in a flexible and efficient manner, reducing fine-tuning costs. Moreover, our proposed fusion in the backbone strategy is more lightweight and compute-efficient than stacking additional fusion-specific layers. Extensive experiments on a wide range of VL tasks demonstrate the effectiveness of EgoVLPv2 by achieving consistent state-of-the-art performance over strong baselines across all downstream. Our project page can be found at https://shramanpramanick.github.io/EgoVLPv2/.

EgoVLPv2: Egocentrisches Video-Sprache-Pre-training mit Fusion im Backbone

EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone

Zusammenfassung

Support