DiscoVLA: Diskrepanzreduktion in Vision, Sprache und Ausrichtung für parameter-effizientes Video-Text-Retrieval
DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval
June 10, 2025
Autoren: Leqi Shen, Guoqiang Gong, Tianxiang Hao, Tao He, Yifeng Zhang, Pengzhang Liu, Sicheng Zhao, Jungong Han, Guiguang Ding
cs.AI
Zusammenfassung
Die parameter-effiziente Anpassung des Bild-Text-Vortrainierungsmodells CLIP für die Video-Text-Retrieval ist ein bedeutendes Forschungsgebiet. Während CLIP auf die Bild-Text-Zuordnung auf Bildebene ausgerichtet ist, erfordert die Video-Text-Retrieval ein umfassendes Verständnis auf Videoebene. Beim Übergang von der Bild- zur Videoebene treten drei wesentliche Diskrepanzen auf: Vision, Sprache und Ausrichtung. Bisherige Methoden konzentrieren sich jedoch hauptsächlich auf die Vision, während Sprache und Ausrichtung vernachlässigt werden. In diesem Artikel schlagen wir Discrepancy Reduction in Vision, Language, and Alignment (DiscoVLA) vor, das alle drei Diskrepanzen gleichzeitig reduziert. Konkret führen wir Image-Video Features Fusion ein, um Bild- und Videoebenenmerkmale zu integrieren und so sowohl die Vision- als auch die Sprachdiskrepanzen effektiv zu bewältigen. Zusätzlich generieren wir pseudo-Bildbeschriftungen, um eine feinkörnige Ausrichtung auf Bildebene zu erlernen. Um die Ausrichtungsdiskrepanzen zu verringern, schlagen wir Image-to-Video Alignment Distillation vor, das das Wissen über die Ausrichtung auf Bildebene nutzt, um die Ausrichtung auf Videoebene zu verbessern. Umfangreiche Experimente demonstrieren die Überlegenheit unseres DiscoVLA. Insbesondere übertrifft DiscoVLA auf MSRVTT mit CLIP (ViT-B/16) bisherige Methoden um 1,5 % in R@1 und erreicht einen Endwert von 50,5 % R@1. Der Code ist verfügbar unter https://github.com/LunarShen/DsicoVLA.
English
The parameter-efficient adaptation of the image-text pretraining model CLIP
for video-text retrieval is a prominent area of research. While CLIP is focused
on image-level vision-language matching, video-text retrieval demands
comprehensive understanding at the video level. Three key discrepancies emerge
in the transfer from image-level to video-level: vision, language, and
alignment. However, existing methods mainly focus on vision while neglecting
language and alignment. In this paper, we propose Discrepancy Reduction in
Vision, Language, and Alignment (DiscoVLA), which simultaneously mitigates all
three discrepancies. Specifically, we introduce Image-Video Features Fusion to
integrate image-level and video-level features, effectively tackling both
vision and language discrepancies. Additionally, we generate pseudo image
captions to learn fine-grained image-level alignment. To mitigate alignment
discrepancies, we propose Image-to-Video Alignment Distillation, which
leverages image-level alignment knowledge to enhance video-level alignment.
Extensive experiments demonstrate the superiority of our DiscoVLA. In
particular, on MSRVTT with CLIP (ViT-B/16), DiscoVLA outperforms previous
methods by 1.5% in R@1, reaching a final score of 50.5% R@1. The code is
available at https://github.com/LunarShen/DsicoVLA.