ImageWAM: Действительно ли мировым моделям действий нужна генерация видео или достаточно только редактирования изображений?

Аннотация

Модели мировых действий (WAMs) обычно опираются на генерацию видео для связывания визуального моделирования мира и управления роботами. Однако видеогенеративные WAM сталкиваются с тремя взаимосвязанными ограничениями: плотные многофреймовые токены будущего приводят к высоким вычислительным затратам при выводе, полное предсказание видео тратит ресурсы на нерелевантные для действия временные и внешние детали, а долгосрочное предвидение будущего может вносить ошибки, искажающие предсказание действий. Эти проблемы ставят простой вопрос: действительно ли модели мировых действий нуждаются в генерации видео? Мы предлагаем ImageWAM — простую структуру WAM, которая адаптирует предобученные модели редактирования изображений для предсказания действий робота. В отличие от генерации видео, редактирование изображений предоставляет лучше согласованный априорный контекст: оно требует моделирования только преобразования целевого кадра, фокусируется на релевантных для действия визуальных различиях между текущим и целевым состояниями и привязывает инструкции задачи к локализованным визуальным изменениям благодаря предварительному обучению редактированию. На практике ImageWAM не декодирует целевой кадр во время вывода; вместо этого она передаёт условия для эксперта действий с потоковым согласованием через KV-кэши, полученные при шумоподавлении в процессе редактирования изображений, используя их как компактный контекст «мир–действие». ImageWAM превосходит стандартные базовые модели VLA и сопоставимые конкурентные WAM без дополнительного предварительного обучения политик как в симуляционных, так и в реальных экспериментах. Она также сокращает количество FLOPs до 1/6, а задержку — до 1/4 от показателей видеогенеративных WAM. Анализ внимания дополнительно показывает, что кэши редактирования фокусируются на релевантных задаче областях изменений, что подтверждает эффективность редактирования изображений как альтернативы моделированию мировых действий на основе видео.

English

World Action Models (WAMs) commonly rely on video generation to bridge visual world modeling and robot control. However, video-based WAMs face three coupled limitations: dense multi-frame future tokens make inference costly, full video prediction spends capacity on action-irrelevant temporal and appearance details, and long-horizon future imagination may introduce errors that mislead action prediction. These issues raise a simple question: Does world action model really need video generation? We propose ImageWAM, a simple WAM framework that repurposes pretrained image editing models for robot action prediction. In contrast to video generation, image editing provides a better-matched prior: it only needs to model a target-frame transformation, focuses on action-relevant current-to-target visual differences, and grounds task instructions to localized visual changes through edit pretraining. In practice, ImageWAM does not decode the target frame at inference time; instead, it conditions a flow-matching action expert on the KV caches produced by image-editing denoising, using them as a compact world-action context. ImageWAM outperforms standard VLA baselines and matching competitive WAMs without additional policy pretraining across different simulator and real-world experiments. It also reduces FLOPs to 1/6 and latency to 1/4 of video-based WAMs. Attention analysis further shows that editing caches focus on task-relevant change regions, supporting image editing as an effective alternative to video-based world-action modeling.