DiscoVLA: Redução de Discrepâncias em Visão, Linguagem e Alinhamento para Recuperação Eficiente em Parâmetros de Vídeo-Texto
DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval
June 10, 2025
Autores: Leqi Shen, Guoqiang Gong, Tianxiang Hao, Tao He, Yifeng Zhang, Pengzhang Liu, Sicheng Zhao, Jungong Han, Guiguang Ding
cs.AI
Resumo
A adaptação eficiente em parâmetros do modelo de pré-treinamento imagem-texto CLIP para recuperação vídeo-texto é uma área proeminente de pesquisa. Embora o CLIP seja focado no emparelhamento visão-linguagem em nível de imagem, a recuperação vídeo-texto exige uma compreensão abrangente em nível de vídeo. Três discrepâncias principais surgem na transferência do nível de imagem para o nível de vídeo: visão, linguagem e alinhamento. No entanto, os métodos existentes concentram-se principalmente na visão, negligenciando a linguagem e o alinhamento. Neste artigo, propomos a Redução de Discrepância em Visão, Linguagem e Alinhamento (DiscoVLA), que mitiga simultaneamente todas as três discrepâncias. Especificamente, introduzimos a Fusão de Características Imagem-Vídeo para integrar características em nível de imagem e vídeo, abordando efetivamente as discrepâncias de visão e linguagem. Além disso, geramos legendas pseudo-imagem para aprender o alinhamento em nível de imagem de forma refinada. Para mitigar as discrepâncias de alinhamento, propomos a Destilação de Alinhamento Imagem-Vídeo, que aproveita o conhecimento de alinhamento em nível de imagem para aprimorar o alinhamento em nível de vídeo. Experimentos extensivos demonstram a superioridade do nosso DiscoVLA. Em particular, no MSRVTT com CLIP (ViT-B/16), o DiscoVLA supera os métodos anteriores em 1,5% no R@1, alcançando uma pontuação final de 50,5% R@1. O código está disponível em https://github.com/LunarShen/DsicoVLA.
English
The parameter-efficient adaptation of the image-text pretraining model CLIP
for video-text retrieval is a prominent area of research. While CLIP is focused
on image-level vision-language matching, video-text retrieval demands
comprehensive understanding at the video level. Three key discrepancies emerge
in the transfer from image-level to video-level: vision, language, and
alignment. However, existing methods mainly focus on vision while neglecting
language and alignment. In this paper, we propose Discrepancy Reduction in
Vision, Language, and Alignment (DiscoVLA), which simultaneously mitigates all
three discrepancies. Specifically, we introduce Image-Video Features Fusion to
integrate image-level and video-level features, effectively tackling both
vision and language discrepancies. Additionally, we generate pseudo image
captions to learn fine-grained image-level alignment. To mitigate alignment
discrepancies, we propose Image-to-Video Alignment Distillation, which
leverages image-level alignment knowledge to enhance video-level alignment.
Extensive experiments demonstrate the superiority of our DiscoVLA. In
particular, on MSRVTT with CLIP (ViT-B/16), DiscoVLA outperforms previous
methods by 1.5% in R@1, reaching a final score of 50.5% R@1. The code is
available at https://github.com/LunarShen/DsicoVLA.