BadWorld: Состязательные атаки на модели мира

Аннотация

Визуальные модели мира (VWM) синтезируют интерактивные, обусловленные действиями развертки на основе одного контекстного изображения. Однако остается открытым вопрос, насколько эти модели устойчивы к состязательным возмущениям. Стандартные состязательные атаки не позволяют оценить эту уязвимость, поскольку у атакующих отсутствуют эталонные будущие видео и они не могут предсказать последующие пользовательские команды. Мы представляем BadWorld — безнаметочный состязательный фреймворк, предназначенный для авторегрессионных VWM, который систематически преодолевает оба ограничения. Во-первых, чтобы обойти необходимость в будущем контроле, мы предлагаем самообучаемую атаку на скорость, которая напрямую нарушает раннюю динамику шумоподавления модели. Во-вторых, чтобы гарантировать обобщение атаки на непредсказуемые действия пользователя, мы формулируем траекторно-адаптивную двухуровневую оптимизацию, которая активно ищет сложные управляющие последовательности для создания нечувствительных к управлению возмущений. При оценке на репрезентативных VWM с непрерывным и дискретным управлением BadWorld выявляет серьезную структурную хрупкость. Визуально неразличимые состязательные изображения надежно вызывают катастрофическую деградацию будущих разверток, приводя к неполному шумоподавлению, структурному коллапсу и несогласованности управления. Эти результаты раскрывают критические риски при развертывании VWM в системах, критичных к безопасности, а также указывают на практический механизм защиты конфиденциальности.

English

Visual world models (VWMs) synthesize interactive, action-conditioned rollouts from a single context image. However, it remains an open question how robust these models are to adversarial perturbations. Standard adversarial attacks fail to assess this vulnerability because attackers lack ground-truth future videos and cannot predict subsequent user controls. We introduce BadWorld, a label-free adversarial framework tailored for autoregressive VWMs that systematically overcomes both constraints. First, to bypass the need for future supervision, we propose a self-supervised velocity attack that directly disrupts the early denoising dynamics of the model. Second, to ensure the attack generalizes across unpredictable user actions, we formulate a trajectory-adaptive bi-level optimization that actively mines hard control sequences to forge control-agnostic perturbations. Evaluated on representative VWMs with continuous and discrete controls, BadWorld exposes severe structural fragility. Visually indistinguishable adversarial images reliably trigger catastrophic degradation in future rollouts, leading to incomplete denoising, structural collapse, and control inconsistency. These findings reveal critical risks for deploying VWMs in safety-critical systems while highlighting a practical mechanism for privacy protection.