ChatPaper.aiChatPaper

Продвижение видеоконтента с использованием атак на системы поиска видео по текстовым запросам

Adversarial Video Promotion Against Text-to-Video Retrieval

August 9, 2025
Авторы: Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Qian Li, Shuai Liu, Chao Shen
cs.AI

Аннотация

Благодаря развитию кросс-модальных моделей, поиск видео по тексту (Text-to-Video Retrieval, T2VR) быстро прогрессирует, однако его устойчивость остается в значительной степени неисследованной. Существующие атаки на T2VR направлены на отдаление видео от запросов, то есть на снижение их рейтинга, в то время как атаки, которые приближают видео к выбранным запросам, то есть повышают их рейтинг, остаются практически не изученными. Такие атаки могут быть более значимыми, так как злоумышленники могут получать больше просмотров/кликов для финансовой выгоды и распространения (дезинформации). В связи с этим мы впервые предлагаем атаку на T2VR для повышения рейтинга видео, названную Video Promotion attack (ViPro). Мы также предлагаем метод Modal Refinement (MoRe) для более детального учета сложного взаимодействия между визуальными и текстовыми модальностями с целью повышения переносимости в условиях черного ящика. Комплексные эксперименты охватывают 2 существующих базовых метода, 3 ведущие модели T2VR, 3 популярных набора данных с более чем 10 тыс. видео, оцененных в 3 сценариях. Все эксперименты проводятся в многозадачной настройке, чтобы отразить реалистичные сценарии, в которых злоумышленники стремятся повысить рейтинг видео относительно нескольких запросов одновременно. Мы также оценили наши атаки на предмет защиты и незаметности. В целом, ViPro превосходит другие базовые методы в среднем на 30/10/4% для настроек белого/серого/черного ящика. Наша работа подчеркивает уязвимость, которая ранее оставалась незамеченной, предоставляет качественный анализ верхней/нижней границы наших атак и предлагает идеи для потенциальных контрмер. Код будет доступен публично по адресу https://github.com/michaeltian108/ViPro.
English
Thanks to the development of cross-modal models, text-to-video retrieval (T2VR) is advancing rapidly, but its robustness remains largely unexamined. Existing attacks against T2VR are designed to push videos away from queries, i.e., suppressing the ranks of videos, while the attacks that pull videos towards selected queries, i.e., promoting the ranks of videos, remain largely unexplored. These attacks can be more impactful as attackers may gain more views/clicks for financial benefits and widespread (mis)information. To this end, we pioneer the first attack against T2VR to promote videos adversarially, dubbed the Video Promotion attack (ViPro). We further propose Modal Refinement (MoRe) to capture the finer-grained, intricate interaction between visual and textual modalities to enhance black-box transferability. Comprehensive experiments cover 2 existing baselines, 3 leading T2VR models, 3 prevailing datasets with over 10k videos, evaluated under 3 scenarios. All experiments are conducted in a multi-target setting to reflect realistic scenarios where attackers seek to promote the video regarding multiple queries simultaneously. We also evaluated our attacks for defences and imperceptibility. Overall, ViPro surpasses other baselines by over 30/10/4% for white/grey/black-box settings on average. Our work highlights an overlooked vulnerability, provides a qualitative analysis on the upper/lower bound of our attacks, and offers insights into potential counterplays. Code will be publicly available at https://github.com/michaeltian108/ViPro.
PDF92August 13, 2025