ChatPaper.aiChatPaper

DiscoVLA: 비디오-텍스트 검색을 위한 파라미터 효율적 시각, 언어, 정렬 간 불일치 감소

DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval

June 10, 2025
저자: Leqi Shen, Guoqiang Gong, Tianxiang Hao, Tao He, Yifeng Zhang, Pengzhang Liu, Sicheng Zhao, Jungong Han, Guiguang Ding
cs.AI

초록

이미지-텍스트 사전 학습 모델인 CLIP을 비디오-텍스트 검색에 효율적으로 적용하는 것은 중요한 연구 분야이다. CLIP은 이미지 수준의 시각-언어 매칭에 초점을 맞추고 있지만, 비디오-텍스트 검색은 비디오 수준의 포괄적인 이해를 요구한다. 이미지 수준에서 비디오 수준으로 전이할 때 시각, 언어, 정렬이라는 세 가지 주요 차이가 발생한다. 그러나 기존 방법들은 주로 시각에 초점을 맞추고 언어와 정렬을 소홀히 했다. 본 논문에서는 시각, 언어, 정렬의 차이를 동시에 완화하는 Discrepancy Reduction in Vision, Language, and Alignment (DiscoVLA)를 제안한다. 구체적으로, 이미지 수준과 비디오 수준의 특징을 통합하기 위해 Image-Video Features Fusion을 도입하여 시각과 언어의 차이를 효과적으로 해결한다. 또한, 세밀한 이미지 수준 정렬을 학습하기 위해 가짜 이미지 캡션을 생성한다. 정렬 차이를 완화하기 위해 이미지 수준 정렬 지식을 활용하여 비디오 수준 정렬을 강화하는 Image-to-Video Alignment Distillation을 제안한다. 광범위한 실험을 통해 DiscoVLA의 우수성을 입증하였다. 특히, CLIP (ViT-B/16)을 사용한 MSRVTT에서 DiscoVLA는 이전 방법들보다 R@1에서 1.5% 우수한 성능을 보이며 최종 점수 50.5% R@1을 달성했다. 코드는 https://github.com/LunarShen/DsicoVLA에서 확인할 수 있다.
English
The parameter-efficient adaptation of the image-text pretraining model CLIP for video-text retrieval is a prominent area of research. While CLIP is focused on image-level vision-language matching, video-text retrieval demands comprehensive understanding at the video level. Three key discrepancies emerge in the transfer from image-level to video-level: vision, language, and alignment. However, existing methods mainly focus on vision while neglecting language and alignment. In this paper, we propose Discrepancy Reduction in Vision, Language, and Alignment (DiscoVLA), which simultaneously mitigates all three discrepancies. Specifically, we introduce Image-Video Features Fusion to integrate image-level and video-level features, effectively tackling both vision and language discrepancies. Additionally, we generate pseudo image captions to learn fine-grained image-level alignment. To mitigate alignment discrepancies, we propose Image-to-Video Alignment Distillation, which leverages image-level alignment knowledge to enhance video-level alignment. Extensive experiments demonstrate the superiority of our DiscoVLA. In particular, on MSRVTT with CLIP (ViT-B/16), DiscoVLA outperforms previous methods by 1.5% in R@1, reaching a final score of 50.5% R@1. The code is available at https://github.com/LunarShen/DsicoVLA.
PDF42June 11, 2025