ImageWAM: Brauchen Weltaktionsmodelle wirklich Videogenerierung oder nur Bildbearbeitung?

Zusammenfassung

Weltaktionsmodelle (WAMs) stützen sich üblicherweise auf Videogenerierung, um visuelle Weltmodellierung und Robotersteuerung zu verbinden. Allerdings unterliegen videobasierte WAMs drei miteinander verknüpften Einschränkungen: dichte zukünftige Token über mehrere Frames erhöhen die Inferenzkosten, die vollständige Videovorhersage wendet Kapazität für aktionsirrelevante zeitliche und Erscheinungsdetails auf, und die langfristige Zukunfts imagination kann Fehler einführen, die die Aktionsvorhersage in die Irre führen. Diese Probleme werfen eine einfache Frage auf: Benötigt ein Weltaktionsmodell wirklich Videogenerierung? Wir schlagen ImageWAM vor, ein einfaches WAM-Framework, das vortrainierte Bildbearbeitungsmodelle für die Vorhersage von Roboteraktionen umfunktioniert. Im Gegensatz zur Videogenerierung bietet die Bildbearbeitung einen besser geeigneten Prior: Sie muss nur eine Zielframe-Transformation modellieren, konzentriert sich auf aktionsrelevante visuelle Unterschiede zwischen aktuellem und Zielbild und verankert Aufgabenanweisungen durch Bearbeitungs-Vortraining in lokalisierten visuellen Veränderungen. In der Praxis dekodiert ImageWAM den Zielframe zur Inferenzzeit nicht; stattdessen konditioniert es einen flussangepassten Aktions-Experten auf die KV-Caches, die durch die Bildbearbeitungs-Entrauschung erzeugt werden, und nutzt diese als kompakten Weltaktionskontext. ImageWAM übertrifft Standard-VLA-Baselines und vergleichbare hochmoderne WAMs ohne zusätzliches Politik-Vortraining in verschiedenen Simulator- und Realweltexperimenten. Es reduziert zudem die FLOPs auf 1/6 und die Latenz auf 1/4 der videobasierten WAMs. Eine Aufmerksamkeitsanalyse zeigt weiterhin, dass Bearbeitungs-Caches sich auf aufgabenrelevante Änderungsregionen konzentrieren, was die Bildbearbeitung als wirksame Alternative zur videobasierten Weltaktionsmodellierung unterstützt.

English

World Action Models (WAMs) commonly rely on video generation to bridge visual world modeling and robot control. However, video-based WAMs face three coupled limitations: dense multi-frame future tokens make inference costly, full video prediction spends capacity on action-irrelevant temporal and appearance details, and long-horizon future imagination may introduce errors that mislead action prediction. These issues raise a simple question: Does world action model really need video generation? We propose ImageWAM, a simple WAM framework that repurposes pretrained image editing models for robot action prediction. In contrast to video generation, image editing provides a better-matched prior: it only needs to model a target-frame transformation, focuses on action-relevant current-to-target visual differences, and grounds task instructions to localized visual changes through edit pretraining. In practice, ImageWAM does not decode the target frame at inference time; instead, it conditions a flow-matching action expert on the KV caches produced by image-editing denoising, using them as a compact world-action context. ImageWAM outperforms standard VLA baselines and matching competitive WAMs without additional policy pretraining across different simulator and real-world experiments. It also reduces FLOPs to 1/6 and latency to 1/4 of video-based WAMs. Attention analysis further shows that editing caches focus on task-relevant change regions, supporting image editing as an effective alternative to video-based world-action modeling.