ImageWAM: Os Modelos de Ação Mundial Realmente Precisam de Geração de Vídeo, ou Apenas de Edição de Imagem?
ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?
June 17, 2026
Autores: Yuyang Zhang, Wenyao Zhang, Zekun Qi, He Zhang, Haitao Lin, Jingbo Zhang, Yao Mu, Xiaokang Yang, Wenjun Zeng, Xin Jin
cs.AI
Resumo
Modelos de Ação Mundial (WAMs) comumente dependem de geração de vídeo para conectar a modelagem visual do mundo ao controle robótico. No entanto, WAMs baseados em vídeo enfrentam três limitações acopladas: tokens densos de múltiplos quadros futuros tornam a inferência custosa, a predição completa de vídeo gasta capacidade em detalhes temporais e de aparência irrelevantes para a ação, e a imaginação de horizonte longo pode introduzir erros que enganam a predição de ação. Essas questões levantam uma pergunta simples: o modelo de ação mundial realmente precisa de geração de vídeo? Propomos o ImageWAM, um framework simples de WAM que reaproveita modelos de edição de imagem pré-treinados para predição de ação robótica. Em contraste com a geração de vídeo, a edição de imagem fornece um prior mais bem ajustado: ela só precisa modelar uma transformação do quadro alvo, concentra-se em diferenças visuais atuais-para-alvo relevantes para a ação e fundamenta instruções de tarefa em mudanças visuais localizadas através do pré-treinamento de edição. Na prática, o ImageWAM não decodifica o quadro alvo no momento da inferência; em vez disso, condiciona um expert de ação por flow-matching nos caches KV produzidos pela eliminação de ruído da edição de imagem, usando-os como um contexto compacto de ação-mundial. O ImageWAM supera linhas de base VLA padrão e WAMs competitivos sem pré-treinamento adicional de política em diferentes experimentos em simulador e no mundo real. Ele também reduz FLOPs para 1/6 e latência para 1/4 dos WAMs baseados em vídeo. A análise de atenção mostra ainda que os caches de edição focam em regiões de mudança relevantes para a tarefa, apoiando a edição de imagem como uma alternativa eficaz à modelagem de ação-mundial baseada em vídeo.
English
World Action Models (WAMs) commonly rely on video generation to bridge visual world modeling and robot control. However, video-based WAMs face three coupled limitations: dense multi-frame future tokens make inference costly, full video prediction spends capacity on action-irrelevant temporal and appearance details, and long-horizon future imagination may introduce errors that mislead action prediction. These issues raise a simple question: Does world action model really need video generation? We propose ImageWAM, a simple WAM framework that repurposes pretrained image editing models for robot action prediction. In contrast to video generation, image editing provides a better-matched prior: it only needs to model a target-frame transformation, focuses on action-relevant current-to-target visual differences, and grounds task instructions to localized visual changes through edit pretraining. In practice, ImageWAM does not decode the target frame at inference time; instead, it conditions a flow-matching action expert on the KV caches produced by image-editing denoising, using them as a compact world-action context. ImageWAM outperforms standard VLA baselines and matching competitive WAMs without additional policy pretraining across different simulator and real-world experiments. It also reduces FLOPs to 1/6 and latency to 1/4 of video-based WAMs. Attention analysis further shows that editing caches focus on task-relevant change regions, supporting image editing as an effective alternative to video-based world-action modeling.