BadWorld: Ataques Adversariais a Modelos de Mundo

Resumo

Modelos de mundo visual (VWMs) sintetizam rollouts interativos e condicionados pela ação a partir de uma única imagem de contexto. No entanto, permanece uma questão em aberto quão robustos são esses modelos a perturbações adversariais. Ataques adversariais padrão falham em avaliar essa vulnerabilidade porque os atacantes não possuem vídeos futuros de referência (ground-truth) e não podem prever os controles subsequentes do usuário. Apresentamos o BadWorld, uma estrutura adversarial livre de rótulos adaptada para VWMs autorregressivos que supera sistematicamente ambas as limitações. Primeiro, para contornar a necessidade de supervisão futura, propomos um ataque de velocidade auto-supervisionado que interrompe diretamente a dinâmica inicial de remoção de ruído do modelo. Segundo, para garantir que o ataque generalize-se através de ações imprevisíveis do usuário, formulamos uma otimização bi-nível adaptativa à trajetória que minera ativamente sequências de controle difíceis para forjar perturbações independentes do controle. Avaliado em VWMs representativos com controles contínuos e discretos, o BadWorld expõe uma fragilidade estrutural severa. Imagens adversariais visualmente indistinguíveis desencadeiam de forma confiável degradação catastrófica em rollouts futuros, levando a remoção de ruído incompleta, colapso estrutural e inconsistência de controle. Essas descobertas revelam riscos críticos para a implantação de VWMs em sistemas de segurança críticos, ao mesmo tempo que destacam um mecanismo prático para proteção de privacidade.

English

Visual world models (VWMs) synthesize interactive, action-conditioned rollouts from a single context image. However, it remains an open question how robust these models are to adversarial perturbations. Standard adversarial attacks fail to assess this vulnerability because attackers lack ground-truth future videos and cannot predict subsequent user controls. We introduce BadWorld, a label-free adversarial framework tailored for autoregressive VWMs that systematically overcomes both constraints. First, to bypass the need for future supervision, we propose a self-supervised velocity attack that directly disrupts the early denoising dynamics of the model. Second, to ensure the attack generalizes across unpredictable user actions, we formulate a trajectory-adaptive bi-level optimization that actively mines hard control sequences to forge control-agnostic perturbations. Evaluated on representative VWMs with continuous and discrete controls, BadWorld exposes severe structural fragility. Visually indistinguishable adversarial images reliably trigger catastrophic degradation in future rollouts, leading to incomplete denoising, structural collapse, and control inconsistency. These findings reveal critical risks for deploying VWMs in safety-critical systems while highlighting a practical mechanism for privacy protection.