BadWorld : Attaques adversariales sur les modèles du monde

Résumé

Les modèles de monde visuel (MMV) synthétisent des déroulements interactifs conditionnés par les actions à partir d'une seule image de contexte. Cependant, la question de la robustesse de ces modèles face aux perturbations adverses reste ouverte. Les attaques adverses standard ne parviennent pas à évaluer cette vulnérabilité car les attaquants ne disposent pas de vidéos futures de référence et ne peuvent pas prédire les contrôles ultérieurs de l'utilisateur. Nous introduisons BadWorld, un cadre adversarial sans étiquette conçu pour les MMV autorégressifs, qui surmonte systématiquement ces deux contraintes. Premièrement, pour contourner le besoin de supervision future, nous proposons une attaque de vélocité auto-supervisée qui perturbe directement la dynamique précoce de débruitage du modèle. Deuxièmement, pour garantir que l'attaque généralise à travers des actions utilisateur imprévisibles, nous formulons une optimisation bi-niveau adaptative à la trajectoire qui extrait activement des séquences de contrôle difficiles afin de forger des perturbations indépendantes du contrôle. Évalué sur des MMV représentatifs avec des contrôles continus et discrets, BadWorld révèle une fragilité structurelle sévère. Des images adverses visuellement indiscernables déclenchent de manière fiable une dégradation catastrophique dans les déroulements futurs, entraînant un débruitage incomplet, un effondrement structurel et une incohérence du contrôle. Ces résultats mettent en lumière des risques critiques pour le déploiement des MMV dans des systèmes critiques pour la sécurité, tout en suggérant un mécanisme pratique pour la protection de la vie privée.

English

Visual world models (VWMs) synthesize interactive, action-conditioned rollouts from a single context image. However, it remains an open question how robust these models are to adversarial perturbations. Standard adversarial attacks fail to assess this vulnerability because attackers lack ground-truth future videos and cannot predict subsequent user controls. We introduce BadWorld, a label-free adversarial framework tailored for autoregressive VWMs that systematically overcomes both constraints. First, to bypass the need for future supervision, we propose a self-supervised velocity attack that directly disrupts the early denoising dynamics of the model. Second, to ensure the attack generalizes across unpredictable user actions, we formulate a trajectory-adaptive bi-level optimization that actively mines hard control sequences to forge control-agnostic perturbations. Evaluated on representative VWMs with continuous and discrete controls, BadWorld exposes severe structural fragility. Visually indistinguishable adversarial images reliably trigger catastrophic degradation in future rollouts, leading to incomplete denoising, structural collapse, and control inconsistency. These findings reveal critical risks for deploying VWMs in safety-critical systems while highlighting a practical mechanism for privacy protection.