DiscoVLA: Снижение расхождений в зрении, языке и согласовании для эффективного поиска видео-текста с малым количеством параметров
DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval
June 10, 2025
Авторы: Leqi Shen, Guoqiang Gong, Tianxiang Hao, Tao He, Yifeng Zhang, Pengzhang Liu, Sicheng Zhao, Jungong Han, Guiguang Ding
cs.AI
Аннотация
Эффективная адаптация параметров предобученной модели CLIP для задач поиска видео по тексту является важным направлением исследований. Хотя CLIP ориентирована на сопоставление изображений и текста на уровне отдельных изображений, поиск видео по тексту требует более глубокого понимания на уровне видео. При переходе от уровня изображений к уровню видео возникают три ключевых различия: в визуальной информации, в языке и в согласовании. Однако существующие методы в основном сосредоточены на визуальной составляющей, пренебрегая языком и согласованием. В данной статье мы предлагаем подход Discrepancy Reduction in Vision, Language, and Alignment (DiscoVLA), который одновременно устраняет все три различия. В частности, мы вводим метод Image-Video Features Fusion для интеграции признаков на уровне изображений и видео, эффективно решая проблемы как в визуальной, так и в языковой составляющих. Кроме того, мы генерируем псевдоподписи к изображениям для обучения тонкому согласованию на уровне изображений. Для устранения различий в согласовании мы предлагаем метод Image-to-Video Alignment Distillation, который использует знания о согласовании на уровне изображений для улучшения согласования на уровне видео. Многочисленные эксперименты демонстрируют превосходство нашего подхода DiscoVLA. В частности, на наборе данных MSRVTT с использованием CLIP (ViT-B/16) DiscoVLA превосходит предыдущие методы на 1,5% по метрике R@1, достигая итогового результата в 50,5% R@1. Код доступен по адресу https://github.com/LunarShen/DsicoVLA.
English
The parameter-efficient adaptation of the image-text pretraining model CLIP
for video-text retrieval is a prominent area of research. While CLIP is focused
on image-level vision-language matching, video-text retrieval demands
comprehensive understanding at the video level. Three key discrepancies emerge
in the transfer from image-level to video-level: vision, language, and
alignment. However, existing methods mainly focus on vision while neglecting
language and alignment. In this paper, we propose Discrepancy Reduction in
Vision, Language, and Alignment (DiscoVLA), which simultaneously mitigates all
three discrepancies. Specifically, we introduce Image-Video Features Fusion to
integrate image-level and video-level features, effectively tackling both
vision and language discrepancies. Additionally, we generate pseudo image
captions to learn fine-grained image-level alignment. To mitigate alignment
discrepancies, we propose Image-to-Video Alignment Distillation, which
leverages image-level alignment knowledge to enhance video-level alignment.
Extensive experiments demonstrate the superiority of our DiscoVLA. In
particular, on MSRVTT with CLIP (ViT-B/16), DiscoVLA outperforms previous
methods by 1.5% in R@1, reaching a final score of 50.5% R@1. The code is
available at https://github.com/LunarShen/DsicoVLA.