ImageWAM: Os Modelos de Ação Mundial Realmente Precisam de Geração de Vídeo, ou Apenas de Edição de Imagem?

Resumo

Modelos de Ação Mundial (WAMs) comumente dependem de geração de vídeo para conectar a modelagem visual do mundo ao controle robótico. No entanto, WAMs baseados em vídeo enfrentam três limitações acopladas: tokens densos de múltiplos quadros futuros tornam a inferência custosa, a predição completa de vídeo gasta capacidade em detalhes temporais e de aparência irrelevantes para a ação, e a imaginação de horizonte longo pode introduzir erros que enganam a predição de ação. Essas questões levantam uma pergunta simples: o modelo de ação mundial realmente precisa de geração de vídeo? Propomos o ImageWAM, um framework simples de WAM que reaproveita modelos de edição de imagem pré-treinados para predição de ação robótica. Em contraste com a geração de vídeo, a edição de imagem fornece um prior mais bem ajustado: ela só precisa modelar uma transformação do quadro alvo, concentra-se em diferenças visuais atuais-para-alvo relevantes para a ação e fundamenta instruções de tarefa em mudanças visuais localizadas através do pré-treinamento de edição. Na prática, o ImageWAM não decodifica o quadro alvo no momento da inferência; em vez disso, condiciona um expert de ação por flow-matching nos caches KV produzidos pela eliminação de ruído da edição de imagem, usando-os como um contexto compacto de ação-mundial. O ImageWAM supera linhas de base VLA padrão e WAMs competitivos sem pré-treinamento adicional de política em diferentes experimentos em simulador e no mundo real. Ele também reduz FLOPs para 1/6 e latência para 1/4 dos WAMs baseados em vídeo. A análise de atenção mostra ainda que os caches de edição focam em regiões de mudança relevantes para a tarefa, apoiando a edição de imagem como uma alternativa eficaz à modelagem de ação-mundial baseada em vídeo.

English

World Action Models (WAMs) commonly rely on video generation to bridge visual world modeling and robot control. However, video-based WAMs face three coupled limitations: dense multi-frame future tokens make inference costly, full video prediction spends capacity on action-irrelevant temporal and appearance details, and long-horizon future imagination may introduce errors that mislead action prediction. These issues raise a simple question: Does world action model really need video generation? We propose ImageWAM, a simple WAM framework that repurposes pretrained image editing models for robot action prediction. In contrast to video generation, image editing provides a better-matched prior: it only needs to model a target-frame transformation, focuses on action-relevant current-to-target visual differences, and grounds task instructions to localized visual changes through edit pretraining. In practice, ImageWAM does not decode the target frame at inference time; instead, it conditions a flow-matching action expert on the KV caches produced by image-editing denoising, using them as a compact world-action context. ImageWAM outperforms standard VLA baselines and matching competitive WAMs without additional policy pretraining across different simulator and real-world experiments. It also reduces FLOPs to 1/6 and latency to 1/4 of video-based WAMs. Attention analysis further shows that editing caches focus on task-relevant change regions, supporting image editing as an effective alternative to video-based world-action modeling.