Promotion vidéo antagoniste contre la recherche texte-vidéo
Adversarial Video Promotion Against Text-to-Video Retrieval
August 9, 2025
papers.authors: Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Qian Li, Shuai Liu, Chao Shen
cs.AI
papers.abstract
Grâce au développement des modèles intermodaux, la recherche vidéo par texte (T2VR) progresse rapidement, mais sa robustesse reste largement inexplorée. Les attaques existantes contre la T2VR sont conçues pour éloigner les vidéos des requêtes, c'est-à-dire pour réduire leur classement, tandis que les attaques visant à rapprocher les vidéos de requêtes sélectionnées, c'est-à-dire à améliorer leur classement, restent largement inexplorées. Ces attaques peuvent être plus impactantes, car les attaquants peuvent obtenir plus de vues/clics pour des bénéfices financiers et une diffusion (dés)informationnelle étendue. À cette fin, nous introduisons la première attaque contre la T2VR visant à promouvoir des vidéos de manière antagoniste, baptisée l'attaque de Promotion Vidéo (ViPro). Nous proposons en outre un Raffinement Modal (MoRe) pour capturer l'interaction plus fine et complexe entre les modalités visuelles et textuelles afin d'améliorer la transférabilité en boîte noire. Des expérimentations exhaustives couvrent 2 références existantes, 3 modèles de T2VR leaders, 3 jeux de données populaires contenant plus de 10 000 vidéos, évalués dans 3 scénarios. Toutes les expériences sont menées dans un cadre multi-cibles pour refléter des scénarios réalistes où les attaquants cherchent à promouvoir la vidéo concernant plusieurs requêtes simultanément. Nous avons également évalué nos attaques pour les défenses et l'imperceptibilité. Globalement, ViPro surpasse les autres références de plus de 30/10/4 % en moyenne pour les configurations en boîte blanche/grise/noire. Notre travail met en lumière une vulnérabilité négligée, fournit une analyse qualitative sur les limites supérieures/inférieures de nos attaques, et offre des perspectives sur les contre-mesures potentielles. Le code sera disponible publiquement à l'adresse https://github.com/michaeltian108/ViPro.
English
Thanks to the development of cross-modal models, text-to-video retrieval
(T2VR) is advancing rapidly, but its robustness remains largely unexamined.
Existing attacks against T2VR are designed to push videos away from queries,
i.e., suppressing the ranks of videos, while the attacks that pull videos
towards selected queries, i.e., promoting the ranks of videos, remain largely
unexplored. These attacks can be more impactful as attackers may gain more
views/clicks for financial benefits and widespread (mis)information. To this
end, we pioneer the first attack against T2VR to promote videos adversarially,
dubbed the Video Promotion attack (ViPro). We further propose Modal Refinement
(MoRe) to capture the finer-grained, intricate interaction between visual and
textual modalities to enhance black-box transferability. Comprehensive
experiments cover 2 existing baselines, 3 leading T2VR models, 3 prevailing
datasets with over 10k videos, evaluated under 3 scenarios. All experiments are
conducted in a multi-target setting to reflect realistic scenarios where
attackers seek to promote the video regarding multiple queries simultaneously.
We also evaluated our attacks for defences and imperceptibility. Overall, ViPro
surpasses other baselines by over 30/10/4% for white/grey/black-box settings
on average. Our work highlights an overlooked vulnerability, provides a
qualitative analysis on the upper/lower bound of our attacks, and offers
insights into potential counterplays. Code will be publicly available at
https://github.com/michaeltian108/ViPro.