Images d'Action : Apprentissage de Politiques de Bout en Bout via la Génération de Vidéos Multi-Vues

Résumé

Les modèles d'action mondiale (WAMs) sont apparus comme une direction prometteuse pour l'apprentissage de politiques robotiques, car ils peuvent exploiter des modèles de base vidéo puissants pour modéliser les états futurs. Cependant, les approches existantes reposent souvent sur des modules d'action séparés, ou utilisent des représentations d'action qui ne sont pas ancrées dans les pixels, ce qui rend difficile l'exploitation complète des connaissances pré-entraînées des modèles vidéo et limite le transfert entre les points de vue et les environnements. Dans ce travail, nous présentons Action Images, un modèle d'action mondiale unifié qui formule l'apprentissage de politiques comme une génération de vidéo multivue. Au lieu de coder le contrôle sous forme de jetons de faible dimension, nous traduisons les actions robotiques à 7 degrés de liberté en images d'action interprétables : des vidéos d'action multi-vues qui sont ancrées dans des pixels 2D et suivent explicitement le mouvement du bras robotique. Cette représentation d'action ancrée dans les pixels permet au modèle de base vidéo lui-même d'agir comme une politique zero-shot, sans tête de politique ni module d'action séparé. Au-delà du contrôle, le même modèle unifié prend en charge la génération conjointe vidéo-action, la génération vidéo conditionnée par l'action et l'étiquetage d'action sous une représentation partagée. Sur les évaluations RLBench et en conditions réelles, notre modèle atteint les taux de succès zero-shot les plus élevés et améliore la qualité de la génération conjointe vidéo-action par rapport aux modèles mondiaux antérieurs dans l'espace vidéo, suggérant que les images d'action interprétables constituent une voie prometteuse pour l'apprentissage de politiques.

English

World action models (WAMs) have emerged as a promising direction for robot policy learning, as they can leverage powerful video backbones to model the future states. However, existing approaches often rely on separate action modules, or use action representations that are not pixel-grounded, making it difficult to fully exploit the pretrained knowledge of video models and limiting transfer across viewpoints and environments. In this work, we present Action Images, a unified world action model that formulates policy learning as multiview video generation. Instead of encoding control as low-dimensional tokens, we translate 7-DoF robot actions into interpretable action images: multi-view action videos that are grounded in 2D pixels and explicitly track robot-arm motion. This pixel-grounded action representation allows the video backbone itself to act as a zero-shot policy, without a separate policy head or action module. Beyond control, the same unified model supports video-action joint generation, action-conditioned video generation, and action labeling under a shared representation. On RLBench and real-world evaluations, our model achieves the strongest zero-shot success rates and improves video-action joint generation quality over prior video-space world models, suggesting that interpretable action images are a promising route to policy learning.

Images d'Action : Apprentissage de Politiques de Bout en Bout via la Génération de Vidéos Multi-Vues

Action Images: End-to-End Policy Learning via Multiview Video Generation

Résumé

Support