ChatPaper.aiChatPaper

텍스트-비디오 검색에 대한 적대적 비디오 프로모션

Adversarial Video Promotion Against Text-to-Video Retrieval

August 9, 2025
저자: Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Qian Li, Shuai Liu, Chao Shen
cs.AI

초록

크로스모달 모델의 발전 덕분에 텍스트-비디오 검색(T2VR) 기술이 빠르게 진보하고 있지만, 그 견고성은 여전히 충분히 검증되지 않고 있습니다. 기존의 T2VR 공격은 비디오를 쿼리에서 멀어지게 하여 비디오의 순위를 낮추는 데 초점을 맞추었습니다. 반면, 특정 쿼리에 대해 비디오를 끌어당겨 순위를 높이는 공격은 거의 연구되지 않았습니다. 이러한 공격은 공격자가 더 많은 조회수/클릭수를 얻어 금전적 이익을 얻거나 잘못된 정보를 광범위하게 퍼뜨릴 수 있기 때문에 더 큰 영향을 미칠 수 있습니다. 이를 위해, 우리는 비디오를 적대적으로 홍보하는 최초의 T2VR 공격인 Video Promotion 공격(ViPro)을 제안합니다. 또한, 시각적 및 텍스트 모달리티 간의 더 세밀하고 복잡한 상호작용을 포착하여 블랙박스 전이성을 향상시키기 위한 Modal Refinement(MoRe)를 제안합니다. 포괄적인 실험은 2개의 기존 베이스라인, 3개의 주요 T2VR 모델, 10,000개 이상의 비디오를 포함한 3개의 주요 데이터셋을 대상으로 3가지 시나리오에서 평가되었습니다. 모든 실험은 공격자가 여러 쿼리에 대해 동시에 비디오를 홍보하려는 현실적인 시나리오를 반영하기 위해 다중 타겟 설정에서 수행되었습니다. 또한, 우리의 공격이 방어 및 인지 불가능성 측면에서도 평가되었습니다. 전반적으로, ViPro는 화이트박스/그레이박스/블랙박스 설정에서 각각 평균 30%/10%/4% 이상으로 다른 베이스라인을 능가했습니다. 우리의 연구는 간과된 취약점을 강조하고, 공격의 상한/하한에 대한 정성적 분석을 제공하며, 잠재적인 대응 전략에 대한 통찰을 제공합니다. 코드는 https://github.com/michaeltian108/ViPro에서 공개될 예정입니다.
English
Thanks to the development of cross-modal models, text-to-video retrieval (T2VR) is advancing rapidly, but its robustness remains largely unexamined. Existing attacks against T2VR are designed to push videos away from queries, i.e., suppressing the ranks of videos, while the attacks that pull videos towards selected queries, i.e., promoting the ranks of videos, remain largely unexplored. These attacks can be more impactful as attackers may gain more views/clicks for financial benefits and widespread (mis)information. To this end, we pioneer the first attack against T2VR to promote videos adversarially, dubbed the Video Promotion attack (ViPro). We further propose Modal Refinement (MoRe) to capture the finer-grained, intricate interaction between visual and textual modalities to enhance black-box transferability. Comprehensive experiments cover 2 existing baselines, 3 leading T2VR models, 3 prevailing datasets with over 10k videos, evaluated under 3 scenarios. All experiments are conducted in a multi-target setting to reflect realistic scenarios where attackers seek to promote the video regarding multiple queries simultaneously. We also evaluated our attacks for defences and imperceptibility. Overall, ViPro surpasses other baselines by over 30/10/4% for white/grey/black-box settings on average. Our work highlights an overlooked vulnerability, provides a qualitative analysis on the upper/lower bound of our attacks, and offers insights into potential counterplays. Code will be publicly available at https://github.com/michaeltian108/ViPro.
PDF82August 13, 2025