ChatPaper.aiChatPaper

Promoción de Video Adversarial contra la Recuperación de Texto a Video

Adversarial Video Promotion Against Text-to-Video Retrieval

August 9, 2025
Autores: Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Qian Li, Shuai Liu, Chao Shen
cs.AI

Resumen

Gracias al desarrollo de modelos multimodales, la recuperación de texto a video (T2VR, por sus siglas en inglés) está avanzando rápidamente, pero su robustez sigue siendo en gran medida inexplorada. Los ataques existentes contra T2VR están diseñados para alejar los videos de las consultas, es decir, suprimir el ranking de los videos, mientras que los ataques que acercan los videos a consultas seleccionadas, es decir, promover el ranking de los videos, permanecen en gran medida sin explorar. Estos ataques pueden ser más impactantes, ya que los atacantes podrían obtener más vistas/clics para beneficios económicos y difundir (des)información de manera generalizada. Con este fin, somos pioneros en el primer ataque contra T2VR para promover videos de manera adversaria, denominado Ataque de Promoción de Video (ViPro). Además, proponemos el Refinamiento Modal (MoRe) para capturar la interacción más detallada y compleja entre las modalidades visual y textual, mejorando así la transferibilidad en entornos de caja negra. Los experimentos exhaustivos cubren 2 líneas base existentes, 3 modelos líderes de T2VR, 3 conjuntos de datos predominantes con más de 10k videos, evaluados bajo 3 escenarios. Todos los experimentos se realizan en un entorno de múltiples objetivos para reflejar escenarios realistas donde los atacantes buscan promover el video en relación con múltiples consultas simultáneamente. También evaluamos nuestros ataques en términos de defensas e imperceptibilidad. En general, ViPro supera a otras líneas base en más de un 30/10/4% en promedio para configuraciones de caja blanca/gris/negra. Nuestro trabajo destaca una vulnerabilidad pasada por alto, proporciona un análisis cualitativo sobre los límites superior/inferior de nuestros ataques y ofrece ideas sobre posibles contramedidas. El código estará disponible públicamente en https://github.com/michaeltian108/ViPro.
English
Thanks to the development of cross-modal models, text-to-video retrieval (T2VR) is advancing rapidly, but its robustness remains largely unexamined. Existing attacks against T2VR are designed to push videos away from queries, i.e., suppressing the ranks of videos, while the attacks that pull videos towards selected queries, i.e., promoting the ranks of videos, remain largely unexplored. These attacks can be more impactful as attackers may gain more views/clicks for financial benefits and widespread (mis)information. To this end, we pioneer the first attack against T2VR to promote videos adversarially, dubbed the Video Promotion attack (ViPro). We further propose Modal Refinement (MoRe) to capture the finer-grained, intricate interaction between visual and textual modalities to enhance black-box transferability. Comprehensive experiments cover 2 existing baselines, 3 leading T2VR models, 3 prevailing datasets with over 10k videos, evaluated under 3 scenarios. All experiments are conducted in a multi-target setting to reflect realistic scenarios where attackers seek to promote the video regarding multiple queries simultaneously. We also evaluated our attacks for defences and imperceptibility. Overall, ViPro surpasses other baselines by over 30/10/4% for white/grey/black-box settings on average. Our work highlights an overlooked vulnerability, provides a qualitative analysis on the upper/lower bound of our attacks, and offers insights into potential counterplays. Code will be publicly available at https://github.com/michaeltian108/ViPro.
PDF82August 13, 2025