DiscoVLA : Réduction des écarts dans la vision, le langage et l'alignement pour une récupération vidéo-texte efficace en paramètres
DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval
June 10, 2025
Auteurs: Leqi Shen, Guoqiang Gong, Tianxiang Hao, Tao He, Yifeng Zhang, Pengzhang Liu, Sicheng Zhao, Jungong Han, Guiguang Ding
cs.AI
Résumé
L'adaptation efficace en paramètres du modèle de pré-entraînement image-texte CLIP pour la recherche vidéo-texte constitue un domaine de recherche important. Bien que CLIP se concentre sur l'appariement vision-langage au niveau de l'image, la recherche vidéo-texte nécessite une compréhension approfondie au niveau de la vidéo. Trois écarts clés émergent lors du passage du niveau image au niveau vidéo : la vision, le langage et l'alignement. Cependant, les méthodes existantes se focalisent principalement sur la vision tout en négligeant le langage et l'alignement. Dans cet article, nous proposons Discrepancy Reduction in Vision, Language, and Alignment (DiscoVLA), qui atténue simultanément ces trois écarts. Plus précisément, nous introduisons Image-Video Features Fusion pour intégrer les caractéristiques au niveau de l'image et de la vidéo, abordant ainsi efficacement les écarts liés à la vision et au langage. De plus, nous générons des pseudo-légendes d'images pour apprendre un alignement fin au niveau de l'image. Pour atténuer les écarts d'alignement, nous proposons Image-to-Video Alignment Distillation, qui exploite les connaissances d'alignement au niveau de l'image pour améliorer l'alignement au niveau de la vidéo. Des expériences approfondies démontrent la supériorité de notre DiscoVLA. En particulier, sur MSRVTT avec CLIP (ViT-B/16), DiscoVLA surpasse les méthodes précédentes de 1,5 % en R@1, atteignant un score final de 50,5 % R@1. Le code est disponible à l'adresse https://github.com/LunarShen/DsicoVLA.
English
The parameter-efficient adaptation of the image-text pretraining model CLIP
for video-text retrieval is a prominent area of research. While CLIP is focused
on image-level vision-language matching, video-text retrieval demands
comprehensive understanding at the video level. Three key discrepancies emerge
in the transfer from image-level to video-level: vision, language, and
alignment. However, existing methods mainly focus on vision while neglecting
language and alignment. In this paper, we propose Discrepancy Reduction in
Vision, Language, and Alignment (DiscoVLA), which simultaneously mitigates all
three discrepancies. Specifically, we introduce Image-Video Features Fusion to
integrate image-level and video-level features, effectively tackling both
vision and language discrepancies. Additionally, we generate pseudo image
captions to learn fine-grained image-level alignment. To mitigate alignment
discrepancies, we propose Image-to-Video Alignment Distillation, which
leverages image-level alignment knowledge to enhance video-level alignment.
Extensive experiments demonstrate the superiority of our DiscoVLA. In
particular, on MSRVTT with CLIP (ViT-B/16), DiscoVLA outperforms previous
methods by 1.5% in R@1, reaching a final score of 50.5% R@1. The code is
available at https://github.com/LunarShen/DsicoVLA.