ImageWAM: ¿Realmente necesitan los Modelos de Acción del Mundo la generación de video, o solo la edición de imágenes?

Resumen

Los Modelos de Acción Mundial (WAMs) suelen basarse en la generación de video para conectar el modelado visual del mundo con el control robótico. Sin embargo, los WAMs basados en video enfrentan tres limitaciones interrelacionadas: los tokens densos de múltiples fotogramas futuros encarecen la inferencia, la predicción completa del video consume capacidad en detalles temporales y de apariencia irrelevantes para la acción, y la imaginación futura de largo horizonte puede introducir errores que desvían la predicción de la acción. Estas cuestiones plantean una pregunta simple: ¿Realmente necesita el modelo de acción mundial la generación de video? Proponemos ImageWAM, un marco simple de WAM que reutiliza modelos preentrenados de edición de imágenes para la predicción de acciones robóticas. A diferencia de la generación de video, la edición de imágenes proporciona un prior mejor ajustado: solo necesita modelar una transformación del fotograma objetivo, se centra en las diferencias visuales actual-objetivo relevantes para la acción y fundamenta las instrucciones de la tarea en cambios visuales localizados mediante el preentrenamiento en edición. En la práctica, ImageWAM no decodifica el fotograma objetivo durante la inferencia; en su lugar, condiciona un experto en acción por emparejamiento de flujo en las cachés KV producidas por la eliminación de ruido de la edición de imágenes, utilizándolas como un contexto compacto de acción-mundo. ImageWAM supera las líneas base estándar de VLA y compite con WAMs avanzados sin necesidad de preentrenamiento adicional de políticas en diversos experimentos con simuladores y el mundo real. También reduce los FLOPs a 1/6 y la latencia a 1/4 de los WAMs basados en video. El análisis de atención muestra, además, que las cachés de edición se centran en las regiones de cambio relevantes para la tarea, respaldando la edición de imágenes como una alternativa efectiva al modelado acción-mundo basado en video.

English

World Action Models (WAMs) commonly rely on video generation to bridge visual world modeling and robot control. However, video-based WAMs face three coupled limitations: dense multi-frame future tokens make inference costly, full video prediction spends capacity on action-irrelevant temporal and appearance details, and long-horizon future imagination may introduce errors that mislead action prediction. These issues raise a simple question: Does world action model really need video generation? We propose ImageWAM, a simple WAM framework that repurposes pretrained image editing models for robot action prediction. In contrast to video generation, image editing provides a better-matched prior: it only needs to model a target-frame transformation, focuses on action-relevant current-to-target visual differences, and grounds task instructions to localized visual changes through edit pretraining. In practice, ImageWAM does not decode the target frame at inference time; instead, it conditions a flow-matching action expert on the KV caches produced by image-editing denoising, using them as a compact world-action context. ImageWAM outperforms standard VLA baselines and matching competitive WAMs without additional policy pretraining across different simulator and real-world experiments. It also reduces FLOPs to 1/6 and latency to 1/4 of video-based WAMs. Attention analysis further shows that editing caches focus on task-relevant change regions, supporting image editing as an effective alternative to video-based world-action modeling.