ChatPaper.aiChatPaper

DiscoVLA: Discrepantiereductie in Visie, Taal en Uitlijning voor Parameter-efficiënte Video-Tekst Retrieval

DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval

June 10, 2025
Auteurs: Leqi Shen, Guoqiang Gong, Tianxiang Hao, Tao He, Yifeng Zhang, Pengzhang Liu, Sicheng Zhao, Jungong Han, Guiguang Ding
cs.AI

Samenvatting

De parameter-efficiënte aanpassing van het beeld-tekst vooraf getrainde model CLIP voor video-tekst retrieval is een belangrijk onderzoeksgebied. Terwijl CLIP zich richt op beeldniveau visie-taal matching, vereist video-tekst retrieval een uitgebreid begrip op videoniveau. Drie belangrijke discrepanties komen naar voren bij de overgang van beeldniveau naar videoniveau: visie, taal en uitlijning. Bestaande methoden richten zich echter voornamelijk op visie, terwijl taal en uitlijning worden verwaarloosd. In dit artikel stellen we Discrepancy Reduction in Vision, Language, and Alignment (DiscoVLA) voor, dat gelijktijdig alle drie de discrepanties vermindert. Specifiek introduceren we Image-Video Features Fusion om beeldniveau en videoniveau kenmerken te integreren, waardoor zowel visie- als taaldiscrepanties effectief worden aangepakt. Daarnaast genereren we pseudo beeldbijschriften om fijnmazige beeldniveau uitlijning te leren. Om uitlijningsdiscrepanties te verminderen, stellen we Image-to-Video Alignment Distillation voor, dat kennis van beeldniveau uitlijning benut om videoniveau uitlijning te verbeteren. Uitgebreide experimenten tonen de superioriteit van onze DiscoVLA aan. In het bijzonder presteert DiscoVLA op MSRVTT met CLIP (ViT-B/16) 1,5% beter in R@1 dan eerdere methoden, met een eindscore van 50,5% R@1. De code is beschikbaar op https://github.com/LunarShen/DsicoVLA.
English
The parameter-efficient adaptation of the image-text pretraining model CLIP for video-text retrieval is a prominent area of research. While CLIP is focused on image-level vision-language matching, video-text retrieval demands comprehensive understanding at the video level. Three key discrepancies emerge in the transfer from image-level to video-level: vision, language, and alignment. However, existing methods mainly focus on vision while neglecting language and alignment. In this paper, we propose Discrepancy Reduction in Vision, Language, and Alignment (DiscoVLA), which simultaneously mitigates all three discrepancies. Specifically, we introduce Image-Video Features Fusion to integrate image-level and video-level features, effectively tackling both vision and language discrepancies. Additionally, we generate pseudo image captions to learn fine-grained image-level alignment. To mitigate alignment discrepancies, we propose Image-to-Video Alignment Distillation, which leverages image-level alignment knowledge to enhance video-level alignment. Extensive experiments demonstrate the superiority of our DiscoVLA. In particular, on MSRVTT with CLIP (ViT-B/16), DiscoVLA outperforms previous methods by 1.5% in R@1, reaching a final score of 50.5% R@1. The code is available at https://github.com/LunarShen/DsicoVLA.
PDF42June 11, 2025