BadWorld: Ataques Adversariales a Modelos del Mundo

Resumen

Los modelos de mundo visual (VWMs) sintetizan despliegues interactivos condicionados por acciones a partir de una única imagen de contexto. Sin embargo, sigue siendo una cuestión abierta la robustez de estos modelos frente a perturbaciones adversarias. Los ataques adversarios estándar no logran evaluar esta vulnerabilidad, ya que los atacantes carecen de videos futuros de referencia y no pueden predecir los controles posteriores del usuario. Presentamos BadWorld, un marco adversario sin etiquetas diseñado para VWMs autorregresivos que supera sistemáticamente ambas limitaciones. Primero, para eludir la necesidad de supervisión futura, proponemos un ataque de velocidad autosupervisado que interrumpe directamente la dinámica temprana de eliminación de ruido del modelo. Segundo, para garantizar que el ataque se generalice a través de acciones de usuario impredecibles, formulamos una optimización de dos niveles adaptativa a trayectorias que extrae activamente secuencias de control difíciles para forjar perturbaciones independientes del control. Evaluado en VWMs representativos con controles continuos y discretos, BadWorld expone una grave fragilidad estructural. Imágenes adversarias visualmente indistinguibles desencadenan de manera fiable una degradación catastrófica en los despliegues futuros, lo que conduce a una eliminación de ruido incompleta, colapso estructural e inconsistencia de control. Estos hallazgos revelan riesgos críticos para el despliegue de VWMs en sistemas de seguridad crítica, al tiempo que destacan un mecanismo práctico para la protección de la privacidad.

English

Visual world models (VWMs) synthesize interactive, action-conditioned rollouts from a single context image. However, it remains an open question how robust these models are to adversarial perturbations. Standard adversarial attacks fail to assess this vulnerability because attackers lack ground-truth future videos and cannot predict subsequent user controls. We introduce BadWorld, a label-free adversarial framework tailored for autoregressive VWMs that systematically overcomes both constraints. First, to bypass the need for future supervision, we propose a self-supervised velocity attack that directly disrupts the early denoising dynamics of the model. Second, to ensure the attack generalizes across unpredictable user actions, we formulate a trajectory-adaptive bi-level optimization that actively mines hard control sequences to forge control-agnostic perturbations. Evaluated on representative VWMs with continuous and discrete controls, BadWorld exposes severe structural fragility. Visually indistinguishable adversarial images reliably trigger catastrophic degradation in future rollouts, leading to incomplete denoising, structural collapse, and control inconsistency. These findings reveal critical risks for deploying VWMs in safety-critical systems while highlighting a practical mechanism for privacy protection.