DiscoVLA: Riduzione della Discrepanza in Visione, Linguaggio e Allineamento per il Recupero Efficiente di Video-Testo con Parametri Ottimizzati
DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval
June 10, 2025
Autori: Leqi Shen, Guoqiang Gong, Tianxiang Hao, Tao He, Yifeng Zhang, Pengzhang Liu, Sicheng Zhao, Jungong Han, Guiguang Ding
cs.AI
Abstract
L'adattamento efficiente in termini di parametri del modello di pre-addestramento immagine-testo CLIP per il recupero video-testo rappresenta un'area di ricerca di rilievo. Mentre CLIP si concentra sull'abbinamento visione-linguaggio a livello di immagine, il recupero video-testo richiede una comprensione completa a livello di video. Emergono tre discrepanze chiave nel passaggio dal livello immagine al livello video: visione, linguaggio e allineamento. Tuttavia, i metodi esistenti si concentrano principalmente sulla visione, trascurando linguaggio e allineamento. In questo articolo, proponiamo Discrepancy Reduction in Vision, Language, and Alignment (DiscoVLA), che mitiga simultaneamente tutte e tre le discrepanze. Nello specifico, introduciamo la fusione di caratteristiche immagine-video per integrare le caratteristiche a livello di immagine e di video, affrontando efficacemente sia le discrepanze di visione che di linguaggio. Inoltre, generiamo didascalie pseudo-immagine per apprendere un allineamento fine a livello di immagine. Per mitigare le discrepanze di allineamento, proponiamo Image-to-Video Alignment Distillation, che sfrutta la conoscenza dell'allineamento a livello di immagine per migliorare l'allineamento a livello di video. Esperimenti estesi dimostrano la superiorità del nostro DiscoVLA. In particolare, su MSRVTT con CLIP (ViT-B/16), DiscoVLA supera i metodi precedenti dell'1,5% in R@1, raggiungendo un punteggio finale del 50,5% R@1. Il codice è disponibile all'indirizzo https://github.com/LunarShen/DsicoVLA.
English
The parameter-efficient adaptation of the image-text pretraining model CLIP
for video-text retrieval is a prominent area of research. While CLIP is focused
on image-level vision-language matching, video-text retrieval demands
comprehensive understanding at the video level. Three key discrepancies emerge
in the transfer from image-level to video-level: vision, language, and
alignment. However, existing methods mainly focus on vision while neglecting
language and alignment. In this paper, we propose Discrepancy Reduction in
Vision, Language, and Alignment (DiscoVLA), which simultaneously mitigates all
three discrepancies. Specifically, we introduce Image-Video Features Fusion to
integrate image-level and video-level features, effectively tackling both
vision and language discrepancies. Additionally, we generate pseudo image
captions to learn fine-grained image-level alignment. To mitigate alignment
discrepancies, we propose Image-to-Video Alignment Distillation, which
leverages image-level alignment knowledge to enhance video-level alignment.
Extensive experiments demonstrate the superiority of our DiscoVLA. In
particular, on MSRVTT with CLIP (ViT-B/16), DiscoVLA outperforms previous
methods by 1.5% in R@1, reaching a final score of 50.5% R@1. The code is
available at https://github.com/LunarShen/DsicoVLA.