EgoVLPv2: Pré-treinamento de Vídeo-Linguagem Egocêntrica com Fusão na Estrutura Principal
EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone
July 11, 2023
Autores: Shraman Pramanick, Yale Song, Sayan Nag, Kevin Qinghong Lin, Hardik Shah, Mike Zheng Shou, Rama Chellappa, Pengchuan Zhang
cs.AI
Resumo
O pré-treinamento vídeo-linguagem (VLP) tem se tornado cada vez mais importante devido à sua capacidade de generalizar para diversas tarefas de visão e linguagem. No entanto, os frameworks existentes de VLP egocêntrico utilizam codificadores separados para vídeo e linguagem e aprendem informações cruzadas específicas para cada tarefa apenas durante o ajuste fino, limitando o desenvolvimento de um sistema unificado. Neste trabalho, introduzimos a segunda geração do pré-treinamento vídeo-linguagem egocêntrico (EgoVLPv2), uma melhoria significativa em relação à geração anterior, ao incorporar a fusão cruzada diretamente nos backbones de vídeo e linguagem. O EgoVLPv2 aprende representações robustas de vídeo-texto durante o pré-treinamento e reutiliza os módulos de atenção cruzada para suportar diferentes tarefas subsequentes de forma flexível e eficiente, reduzindo os custos de ajuste fino. Além disso, nossa estratégia proposta de fusão no backbone é mais leve e computacionalmente eficiente do que a adição de camadas específicas para fusão. Experimentos extensos em uma ampla gama de tarefas de VL demonstram a eficácia do EgoVLPv2 ao alcançar desempenho consistente de última geração em comparação com baselines fortes em todas as tarefas subsequentes. Nossa página do projeto pode ser encontrada em https://shramanpramanick.github.io/EgoVLPv2/.
English
Video-language pre-training (VLP) has become increasingly important due to
its ability to generalize to various vision and language tasks. However,
existing egocentric VLP frameworks utilize separate video and language encoders
and learn task-specific cross-modal information only during fine-tuning,
limiting the development of a unified system. In this work, we introduce the
second generation of egocentric video-language pre-training (EgoVLPv2), a
significant improvement from the previous generation, by incorporating
cross-modal fusion directly into the video and language backbones. EgoVLPv2
learns strong video-text representation during pre-training and reuses the
cross-modal attention modules to support different downstream tasks in a
flexible and efficient manner, reducing fine-tuning costs. Moreover, our
proposed fusion in the backbone strategy is more lightweight and
compute-efficient than stacking additional fusion-specific layers. Extensive
experiments on a wide range of VL tasks demonstrate the effectiveness of
EgoVLPv2 by achieving consistent state-of-the-art performance over strong
baselines across all downstream. Our project page can be found at
https://shramanpramanick.github.io/EgoVLPv2/.