テキスト・ツー・ビデオ検索に対する敵対的ビデオプロモーション
Adversarial Video Promotion Against Text-to-Video Retrieval
August 9, 2025
著者: Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Qian Li, Shuai Liu, Chao Shen
cs.AI
要旨
クロスモーダルモデルの発展により、テキストからビデオを検索する技術(T2VR)は急速に進歩していますが、その堅牢性はほとんど検証されていません。既存のT2VRに対する攻撃は、ビデオをクエリから遠ざける、つまりビデオのランクを下げるように設計されていますが、選択したクエリにビデオを近づける、つまりビデオのランクを上げる攻撃はほとんど研究されていません。これらの攻撃は、攻撃者が金銭的利益や広範な(誤)情報を得るためにより多くの視聴数/クリック数を獲得する可能性があるため、より影響力が大きいと言えます。この目的のために、我々はT2VRに対してビデオを敵対的に昇格させる初めての攻撃を開拓し、これをVideo Promotion攻撃(ViPro)と名付けました。さらに、視覚とテキストのモダリティ間のより細かい、複雑な相互作用を捉えるためにModal Refinement(MoRe)を提案し、ブラックボックス転送性を向上させました。包括的な実験では、2つの既存のベースライン、3つの主要なT2VRモデル、1万以上のビデオを含む3つの主要なデータセットをカバーし、3つのシナリオで評価しました。すべての実験は、攻撃者が複数のクエリに関して同時にビデオを昇格させようとする現実的なシナリオを反映するために、マルチターゲット設定で実施されました。また、防御と知覚不能性についても攻撃を評価しました。全体として、ViProはホワイト/グレー/ブラックボックス設定で平均して他のベースラインを30/10/4%以上上回りました。我々の研究は見過ごされていた脆弱性を強調し、攻撃の上限/下限についての定性的分析を提供し、潜在的な対策への洞察を提供します。コードはhttps://github.com/michaeltian108/ViProで公開されます。
English
Thanks to the development of cross-modal models, text-to-video retrieval
(T2VR) is advancing rapidly, but its robustness remains largely unexamined.
Existing attacks against T2VR are designed to push videos away from queries,
i.e., suppressing the ranks of videos, while the attacks that pull videos
towards selected queries, i.e., promoting the ranks of videos, remain largely
unexplored. These attacks can be more impactful as attackers may gain more
views/clicks for financial benefits and widespread (mis)information. To this
end, we pioneer the first attack against T2VR to promote videos adversarially,
dubbed the Video Promotion attack (ViPro). We further propose Modal Refinement
(MoRe) to capture the finer-grained, intricate interaction between visual and
textual modalities to enhance black-box transferability. Comprehensive
experiments cover 2 existing baselines, 3 leading T2VR models, 3 prevailing
datasets with over 10k videos, evaluated under 3 scenarios. All experiments are
conducted in a multi-target setting to reflect realistic scenarios where
attackers seek to promote the video regarding multiple queries simultaneously.
We also evaluated our attacks for defences and imperceptibility. Overall, ViPro
surpasses other baselines by over 30/10/4% for white/grey/black-box settings
on average. Our work highlights an overlooked vulnerability, provides a
qualitative analysis on the upper/lower bound of our attacks, and offers
insights into potential counterplays. Code will be publicly available at
https://github.com/michaeltian108/ViPro.