DiscoVLA: Reducción de Discrepancias en Visión, Lenguaje y Alineación para la Recuperación Eficiente en Parámetros de Vídeo-Texto
DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval
June 10, 2025
Autores: Leqi Shen, Guoqiang Gong, Tianxiang Hao, Tao He, Yifeng Zhang, Pengzhang Liu, Sicheng Zhao, Jungong Han, Guiguang Ding
cs.AI
Resumen
La adaptación eficiente en parámetros del modelo de preentrenamiento de imagen-texto CLIP para la recuperación de video-texto es un área destacada de investigación. Mientras que CLIP se centra en la correspondencia visión-lenguaje a nivel de imagen, la recuperación de video-texto exige una comprensión integral a nivel de video. Surgen tres discrepancias clave en la transferencia de nivel de imagen a nivel de video: visión, lenguaje y alineación. Sin embargo, los métodos existentes se enfocan principalmente en la visión, descuidando el lenguaje y la alineación. En este artículo, proponemos la Reducción de Discrepancias en Visión, Lenguaje y Alineación (DiscoVLA), que mitiga simultáneamente las tres discrepancias. Específicamente, introducimos la Fusión de Características de Imagen-Video para integrar características a nivel de imagen y video, abordando efectivamente las discrepancias de visión y lenguaje. Además, generamos pseudo-leyendas de imágenes para aprender una alineación fina a nivel de imagen. Para mitigar las discrepancias de alineación, proponemos la Destilación de Alineación de Imagen a Video, que aprovecha el conocimiento de alineación a nivel de imagen para mejorar la alineación a nivel de video. Experimentos extensivos demuestran la superioridad de nuestro DiscoVLA. En particular, en MSRVTT con CLIP (ViT-B/16), DiscoVLA supera a los métodos anteriores en un 1.5% en R@1, alcanzando una puntuación final de 50.5% R@1. El código está disponible en https://github.com/LunarShen/DsicoVLA.
English
The parameter-efficient adaptation of the image-text pretraining model CLIP
for video-text retrieval is a prominent area of research. While CLIP is focused
on image-level vision-language matching, video-text retrieval demands
comprehensive understanding at the video level. Three key discrepancies emerge
in the transfer from image-level to video-level: vision, language, and
alignment. However, existing methods mainly focus on vision while neglecting
language and alignment. In this paper, we propose Discrepancy Reduction in
Vision, Language, and Alignment (DiscoVLA), which simultaneously mitigates all
three discrepancies. Specifically, we introduce Image-Video Features Fusion to
integrate image-level and video-level features, effectively tackling both
vision and language discrepancies. Additionally, we generate pseudo image
captions to learn fine-grained image-level alignment. To mitigate alignment
discrepancies, we propose Image-to-Video Alignment Distillation, which
leverages image-level alignment knowledge to enhance video-level alignment.
Extensive experiments demonstrate the superiority of our DiscoVLA. In
particular, on MSRVTT with CLIP (ViT-B/16), DiscoVLA outperforms previous
methods by 1.5% in R@1, reaching a final score of 50.5% R@1. The code is
available at https://github.com/LunarShen/DsicoVLA.