Imagens de Ação: Aprendizado de Políticas End-to-End via Geração de Vídeo Multivisão

Resumo

Os modelos de ação mundial (WAMs) surgiram como uma direção promissora para a aprendizagem de políticas robóticas, pois podem aproveitar poderosos *backbones* de vídeo para modelar estados futuros. No entanto, as abordagens existentes frequentemente dependem de módulos de ação separados ou usam representações de ação que não estão ancoradas em pixels, dificultando a exploração total do conhecimento pré-treinado de modelos de vídeo e limitando a transferência entre pontos de vista e ambientes. Neste trabalho, apresentamos as Imagens de Ação, um modelo de ação mundial unificado que formula a aprendizagem de políticas como uma geração de vídeo multivista. Em vez de codificar o controle como *tokens* de baixa dimensão, traduzimos ações robóticas de 7-DoF em imagens de ação interpretáveis: vídeos de ação multivista que estão ancorados em pixels 2D e rastreiam explicitamente o movimento do braço robótico. Esta representação de ação ancorada em pixels permite que o *backbone* de vídeo atue como uma política *zero-shot*, sem um cabeçalho de política ou módulo de ação separado. Além do controle, o mesmo modelo unificado suporta geração conjunta vídeo-ação, geração de vídeo condicionada por ação e rotulagem de ação sob uma representação compartilhada. Nas avaliações do RLBench e do mundo real, nosso modelo alcança as mais altas taxas de sucesso *zero-shot* e melhora a qualidade da geração conjunta vídeo-ação em relação aos modelos mundiais anteriores no espaço de vídeo, sugerindo que as imagens de ação interpretáveis são uma rota promissora para a aprendizagem de políticas.

English

World action models (WAMs) have emerged as a promising direction for robot policy learning, as they can leverage powerful video backbones to model the future states. However, existing approaches often rely on separate action modules, or use action representations that are not pixel-grounded, making it difficult to fully exploit the pretrained knowledge of video models and limiting transfer across viewpoints and environments. In this work, we present Action Images, a unified world action model that formulates policy learning as multiview video generation. Instead of encoding control as low-dimensional tokens, we translate 7-DoF robot actions into interpretable action images: multi-view action videos that are grounded in 2D pixels and explicitly track robot-arm motion. This pixel-grounded action representation allows the video backbone itself to act as a zero-shot policy, without a separate policy head or action module. Beyond control, the same unified model supports video-action joint generation, action-conditioned video generation, and action labeling under a shared representation. On RLBench and real-world evaluations, our model achieves the strongest zero-shot success rates and improves video-action joint generation quality over prior video-space world models, suggesting that interpretable action images are a promising route to policy learning.

Imagens de Ação: Aprendizado de Políticas End-to-End via Geração de Vídeo Multivisão

Action Images: End-to-End Policy Learning via Multiview Video Generation

Resumo

Support