EgoVLPv2: Pré-treinamento de Vídeo-Linguagem Egocêntrica com Fusão na Estrutura Principal

Resumo

O pré-treinamento vídeo-linguagem (VLP) tem se tornado cada vez mais importante devido à sua capacidade de generalizar para diversas tarefas de visão e linguagem. No entanto, os frameworks existentes de VLP egocêntrico utilizam codificadores separados para vídeo e linguagem e aprendem informações cruzadas específicas para cada tarefa apenas durante o ajuste fino, limitando o desenvolvimento de um sistema unificado. Neste trabalho, introduzimos a segunda geração do pré-treinamento vídeo-linguagem egocêntrico (EgoVLPv2), uma melhoria significativa em relação à geração anterior, ao incorporar a fusão cruzada diretamente nos backbones de vídeo e linguagem. O EgoVLPv2 aprende representações robustas de vídeo-texto durante o pré-treinamento e reutiliza os módulos de atenção cruzada para suportar diferentes tarefas subsequentes de forma flexível e eficiente, reduzindo os custos de ajuste fino. Além disso, nossa estratégia proposta de fusão no backbone é mais leve e computacionalmente eficiente do que a adição de camadas específicas para fusão. Experimentos extensos em uma ampla gama de tarefas de VL demonstram a eficácia do EgoVLPv2 ao alcançar desempenho consistente de última geração em comparação com baselines fortes em todas as tarefas subsequentes. Nossa página do projeto pode ser encontrada em https://shramanpramanick.github.io/EgoVLPv2/.

English

Video-language pre-training (VLP) has become increasingly important due to its ability to generalize to various vision and language tasks. However, existing egocentric VLP frameworks utilize separate video and language encoders and learn task-specific cross-modal information only during fine-tuning, limiting the development of a unified system. In this work, we introduce the second generation of egocentric video-language pre-training (EgoVLPv2), a significant improvement from the previous generation, by incorporating cross-modal fusion directly into the video and language backbones. EgoVLPv2 learns strong video-text representation during pre-training and reuses the cross-modal attention modules to support different downstream tasks in a flexible and efficient manner, reducing fine-tuning costs. Moreover, our proposed fusion in the backbone strategy is more lightweight and compute-efficient than stacking additional fusion-specific layers. Extensive experiments on a wide range of VL tasks demonstrate the effectiveness of EgoVLPv2 by achieving consistent state-of-the-art performance over strong baselines across all downstream. Our project page can be found at https://shramanpramanick.github.io/EgoVLPv2/.

EgoVLPv2: Pré-treinamento de Vídeo-Linguagem Egocêntrica com Fusão na Estrutura Principal

EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone

Resumo

Support