Promoção Adversarial de Vídeo Contra Recuperação de Texto para Vídeo
Adversarial Video Promotion Against Text-to-Video Retrieval
August 9, 2025
Autores: Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Qian Li, Shuai Liu, Chao Shen
cs.AI
Resumo
Graças ao desenvolvimento de modelos multimodais, a recuperação de vídeo a partir de texto (T2VR) está avançando rapidamente, mas sua robustez permanece amplamente não examinada. Os ataques existentes contra T2VR são projetados para afastar vídeos das consultas, ou seja, suprimir a classificação dos vídeos, enquanto os ataques que aproximam vídeos de consultas selecionadas, ou seja, promover a classificação dos vídeos, permanecem amplamente inexplorados. Esses ataques podem ser mais impactantes, pois os atacantes podem obter mais visualizações/cliques para benefícios financeiros e disseminação de (des)informação. Para isso, pioneiramente, propomos o primeiro ataque contra T2VR para promover vídeos de forma adversária, denominado Ataque de Promoção de Vídeo (ViPro). Além disso, propomos o Refinamento Modal (MoRe) para capturar a interação mais refinada e intrincada entre as modalidades visual e textual, a fim de melhorar a transferibilidade em cenários de caixa-preta. Experimentos abrangentes cobrem 2 baselines existentes, 3 modelos líderes de T2VR, 3 conjuntos de dados predominantes com mais de 10 mil vídeos, avaliados em 3 cenários. Todos os experimentos são conduzidos em um ambiente de múltiplos alvos para refletir cenários realistas onde os atacantes buscam promover o vídeo em relação a múltiplas consultas simultaneamente. Também avaliamos nossos ataques em termos de defesas e imperceptibilidade. No geral, o ViPro supera outras baselines em mais de 30/10/4% em média para configurações de caixa branca/cinza/preta. Nosso trabalho destaca uma vulnerabilidade negligenciada, fornece uma análise qualitativa sobre os limites superior/inferior de nossos ataques e oferece insights sobre possíveis contramedidas. O código estará publicamente disponível em https://github.com/michaeltian108/ViPro.
English
Thanks to the development of cross-modal models, text-to-video retrieval
(T2VR) is advancing rapidly, but its robustness remains largely unexamined.
Existing attacks against T2VR are designed to push videos away from queries,
i.e., suppressing the ranks of videos, while the attacks that pull videos
towards selected queries, i.e., promoting the ranks of videos, remain largely
unexplored. These attacks can be more impactful as attackers may gain more
views/clicks for financial benefits and widespread (mis)information. To this
end, we pioneer the first attack against T2VR to promote videos adversarially,
dubbed the Video Promotion attack (ViPro). We further propose Modal Refinement
(MoRe) to capture the finer-grained, intricate interaction between visual and
textual modalities to enhance black-box transferability. Comprehensive
experiments cover 2 existing baselines, 3 leading T2VR models, 3 prevailing
datasets with over 10k videos, evaluated under 3 scenarios. All experiments are
conducted in a multi-target setting to reflect realistic scenarios where
attackers seek to promote the video regarding multiple queries simultaneously.
We also evaluated our attacks for defences and imperceptibility. Overall, ViPro
surpasses other baselines by over 30/10/4% for white/grey/black-box settings
on average. Our work highlights an overlooked vulnerability, provides a
qualitative analysis on the upper/lower bound of our attacks, and offers
insights into potential counterplays. Code will be publicly available at
https://github.com/michaeltian108/ViPro.