Imágenes de Acción: Aprendizaje de Políticas de Extremo a Extremo mediante Generación de Video Multivista

Resumen

Los modelos de acción mundial (WAMs) han surgido como una dirección prometedora para el aprendizaje de políticas de robots, ya que pueden aprovejar poderosos *backbones* de vídeo para modelar los estados futuros. Sin embargo, los enfoques existentes a menudo dependen de módulos de acción separados o utilizan representaciones de acción que no están ancladas en píxeles, lo que dificulta explotar completamente el conocimiento preentrenado de los modelos de vídeo y limita la transferencia entre puntos de vista y entornos. En este trabajo, presentamos Action Images, un modelo de acción mundial unificado que formula el aprendizaje de políticas como una generación de vídeo multivista. En lugar de codificar el control como *tokens* de baja dimensión, traducimos las acciones de un robot de 7 grados de libertad (7-DoF) en imágenes de acción interpretables: vídeos de acción multivista que están anclados en píxeles 2D y que rastrean explícitamente el movimiento del brazo robótico. Esta representación de acción anclada en píxeles permite que el *backbone* de vídeo actúe por sí mismo como una política de *zero-shot*, sin un cabezal de política separado ni un módulo de acción. Más allá del control, el mismo modelo unificado admite la generación conjunta de vídeo-acción, la generación de vídeo condicionada por acciones y el etiquetado de acciones bajo una representación compartida. En las evaluaciones de RLBench y en entornos del mundo real, nuestro modelo logra las tasas de éxito de *zero-shot* más sólidas y mejora la calidad de la generación conjunta de vídeo-acción en comparación con los modelos mundiales previos en el espacio del vídeo, lo que sugiere que las imágenes de acción interpretables son una ruta prometedora para el aprendizaje de políticas.

English

World action models (WAMs) have emerged as a promising direction for robot policy learning, as they can leverage powerful video backbones to model the future states. However, existing approaches often rely on separate action modules, or use action representations that are not pixel-grounded, making it difficult to fully exploit the pretrained knowledge of video models and limiting transfer across viewpoints and environments. In this work, we present Action Images, a unified world action model that formulates policy learning as multiview video generation. Instead of encoding control as low-dimensional tokens, we translate 7-DoF robot actions into interpretable action images: multi-view action videos that are grounded in 2D pixels and explicitly track robot-arm motion. This pixel-grounded action representation allows the video backbone itself to act as a zero-shot policy, without a separate policy head or action module. Beyond control, the same unified model supports video-action joint generation, action-conditioned video generation, and action labeling under a shared representation. On RLBench and real-world evaluations, our model achieves the strongest zero-shot success rates and improves video-action joint generation quality over prior video-space world models, suggesting that interpretable action images are a promising route to policy learning.

Imágenes de Acción: Aprendizaje de Políticas de Extremo a Extremo mediante Generación de Video Multivista

Action Images: End-to-End Policy Learning via Multiview Video Generation

Resumen

Support