Promozione Video Adversariale Contro il Recupero Testo-Video
Adversarial Video Promotion Against Text-to-Video Retrieval
August 9, 2025
Autori: Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Qian Li, Shuai Liu, Chao Shen
cs.AI
Abstract
Grazie allo sviluppo di modelli cross-modali, il recupero video da testo (T2VR) sta avanzando rapidamente, ma la sua robustezza rimane in gran parte non esaminata. Gli attacchi esistenti contro il T2VR sono progettati per allontanare i video dalle query, ovvero per sopprimere il ranking dei video, mentre gli attacchi che avvicinano i video a query selezionate, ovvero che promuovono il ranking dei video, rimangono in gran parte inesplorati. Questi attacchi possono essere più impattanti poiché gli aggressori potrebbero ottenere più visualizzazioni/clic per benefici finanziari e diffondere (dis)informazione su larga scala. A tal fine, siamo i primi a introdurre un attacco contro il T2VR per promuovere i video in modo avversariale, denominato Video Promotion attack (ViPro). Proponiamo inoltre il Modal Refinement (MoRe) per catturare l'interazione più fine e intricata tra le modalità visive e testuali, al fine di migliorare la trasferibilità in contesti black-box. Esperimenti completi coprono 2 baseline esistenti, 3 modelli T2VR leader, 3 dataset prevalenti con oltre 10.000 video, valutati in 3 scenari. Tutti gli esperimenti sono condotti in un contesto multi-target per riflettere scenari realistici in cui gli aggressori cercano di promuovere il video rispetto a più query contemporaneamente. Abbiamo anche valutato i nostri attacchi per le difese e l'impercettibilità. Nel complesso, ViPro supera altre baseline di oltre 30/10/4% in media per impostazioni white/grey/black-box. Il nostro lavoro evidenzia una vulnerabilità trascurata, fornisce un'analisi qualitativa sui limiti superiore/inferiore dei nostri attacchi e offre spunti su potenziali contromisure. Il codice sarà disponibile pubblicamente su https://github.com/michaeltian108/ViPro.
English
Thanks to the development of cross-modal models, text-to-video retrieval
(T2VR) is advancing rapidly, but its robustness remains largely unexamined.
Existing attacks against T2VR are designed to push videos away from queries,
i.e., suppressing the ranks of videos, while the attacks that pull videos
towards selected queries, i.e., promoting the ranks of videos, remain largely
unexplored. These attacks can be more impactful as attackers may gain more
views/clicks for financial benefits and widespread (mis)information. To this
end, we pioneer the first attack against T2VR to promote videos adversarially,
dubbed the Video Promotion attack (ViPro). We further propose Modal Refinement
(MoRe) to capture the finer-grained, intricate interaction between visual and
textual modalities to enhance black-box transferability. Comprehensive
experiments cover 2 existing baselines, 3 leading T2VR models, 3 prevailing
datasets with over 10k videos, evaluated under 3 scenarios. All experiments are
conducted in a multi-target setting to reflect realistic scenarios where
attackers seek to promote the video regarding multiple queries simultaneously.
We also evaluated our attacks for defences and imperceptibility. Overall, ViPro
surpasses other baselines by over 30/10/4% for white/grey/black-box settings
on average. Our work highlights an overlooked vulnerability, provides a
qualitative analysis on the upper/lower bound of our attacks, and offers
insights into potential counterplays. Code will be publicly available at
https://github.com/michaeltian108/ViPro.