ImageWAM : Les modèles d'action du monde ont-ils vraiment besoin de génération vidéo, ou simplement d'édition d'images ?

Résumé

Les World Action Models (WAMs) reposent couramment sur la génération vidéo pour faire le lien entre la modélisation visuelle du monde et le contrôle robotique. Cependant, les WAMs basés sur la vidéo présentent trois limitations couplées : la densité des tokens futurs multi-images rend l'inférence coûteuse, la prédiction vidéo complète consacre des capacités à des détails temporels et d'apparence non pertinents pour l'action, et l'imagination future à long terme peut introduire des erreurs qui induisent en erreur la prédiction d'action. Ces problèmes soulèvent une question simple : un modèle d'action mondial a-t-il vraiment besoin de la génération vidéo ? Nous proposons ImageWAM, un framework WAM simple qui réutilise des modèles d'édition d'images pré-entraînés pour la prédiction d'actions robotiques. Contrairement à la génération vidéo, l'édition d'images offre un a priori mieux adapté : elle ne nécessite que de modéliser une transformation de l'image cible, se concentre sur les différences visuelles actuelles-cibles pertinentes pour l'action, et ancre les instructions de tâche dans des changements visuels localisés grâce au pré-entraînement à l'édition. En pratique, ImageWAM ne décode pas l'image cible au moment de l'inférence ; il conditionne plutôt un expert en actions par appariement de flux sur les caches KV produits par le débruitage d'édition d'images, en les utilisant comme un contexte monde-action compact. ImageWAM surpasse les lignes de base VLA standard et les WAMs concurrents comparables sans pré-entraînement supplémentaire de politique lors de différentes expériences en simulateur et dans le monde réel. Il réduit également les FLOPs à 1/6 et la latence à 1/4 de celles des WAMs basés sur la vidéo. L'analyse de l'attention montre en outre que les caches d'édition se concentrent sur les régions de changement pertinentes pour la tâche, confirmant que l'édition d'images est une alternative efficace à la modélisation monde-action basée sur la vidéo.

English

World Action Models (WAMs) commonly rely on video generation to bridge visual world modeling and robot control. However, video-based WAMs face three coupled limitations: dense multi-frame future tokens make inference costly, full video prediction spends capacity on action-irrelevant temporal and appearance details, and long-horizon future imagination may introduce errors that mislead action prediction. These issues raise a simple question: Does world action model really need video generation? We propose ImageWAM, a simple WAM framework that repurposes pretrained image editing models for robot action prediction. In contrast to video generation, image editing provides a better-matched prior: it only needs to model a target-frame transformation, focuses on action-relevant current-to-target visual differences, and grounds task instructions to localized visual changes through edit pretraining. In practice, ImageWAM does not decode the target frame at inference time; instead, it conditions a flow-matching action expert on the KV caches produced by image-editing denoising, using them as a compact world-action context. ImageWAM outperforms standard VLA baselines and matching competitive WAMs without additional policy pretraining across different simulator and real-world experiments. It also reduces FLOPs to 1/6 and latency to 1/4 of video-based WAMs. Attention analysis further shows that editing caches focus on task-relevant change regions, supporting image editing as an effective alternative to video-based world-action modeling.