ImageWAM: Hebben World Action Models Echt Videogeneratie Nodig, of Alleen Beeldbewerking?

Samenvatting

Wereldactiemodellen (WAMs) maken doorgaans gebruik van videogeneratie om visuele wereldmodellering en robotbesturing te overbruggen. Videogebaseerde WAMs hebben echter drie onderling samenhangende beperkingen: dichte meervoudige toekomstige tokens maken inferentie duur, volledige videovoorspelling besteedt capaciteit aan actie-irrelevante temporele en uiterlijke details, en langetermijn-toekomstverbeelding kan fouten introduceren die de actievoorspelling misleiden. Deze problemen roepen een simpele vraag op: heeft een wereldactiemodel echt videogeneratie nodig? Wij stellen ImageWAM voor, een eenvoudig WAM-raamwerk dat voorgetrainde beeldbewerkingsmodellen hergebruikt voor robotactievoorspelling. In tegenstelling tot videogeneratie biedt beeldbewerking een beter passende voorkennis: het hoeft alleen een doelkadertransformatie te modelleren, richt zich op actie-relevante visuele verschillen tussen huidig en doel, en verankert taakinstructies aan gelokaliseerde visuele veranderingen door middel van bewerkingstraining. In de praktijk decodeert ImageWAM het doelkader niet tijdens inferentie; in plaats daarvan conditioneert het een stroommatching-actie-expert op de KV-caches die door de ruisverwijdering van beeldbewerking worden geproduceerd, en gebruikt deze als een compacte wereld-actiecontext. ImageWAM presteert beter dan standaard VLA-baselines en concurrerende WAMs zonder extra beleidstraining in verschillende simulator- en real-world experimenten. Het vermindert ook FLOPs tot 1/6 en latentie tot 1/4 van videogebaseerde WAMs. Aandachtsanalyse toont verder aan dat bewerkingscaches zich richten op taakrelevante veranderingsregio's, wat beeldbewerking ondersteunt als een effectief alternatief voor videogebaseerde wereld-actiemodellering.

English

World Action Models (WAMs) commonly rely on video generation to bridge visual world modeling and robot control. However, video-based WAMs face three coupled limitations: dense multi-frame future tokens make inference costly, full video prediction spends capacity on action-irrelevant temporal and appearance details, and long-horizon future imagination may introduce errors that mislead action prediction. These issues raise a simple question: Does world action model really need video generation? We propose ImageWAM, a simple WAM framework that repurposes pretrained image editing models for robot action prediction. In contrast to video generation, image editing provides a better-matched prior: it only needs to model a target-frame transformation, focuses on action-relevant current-to-target visual differences, and grounds task instructions to localized visual changes through edit pretraining. In practice, ImageWAM does not decode the target frame at inference time; instead, it conditions a flow-matching action expert on the KV caches produced by image-editing denoising, using them as a compact world-action context. ImageWAM outperforms standard VLA baselines and matching competitive WAMs without additional policy pretraining across different simulator and real-world experiments. It also reduces FLOPs to 1/6 and latency to 1/4 of video-based WAMs. Attention analysis further shows that editing caches focus on task-relevant change regions, supporting image editing as an effective alternative to video-based world-action modeling.