Immagini d'Azione: Apprendimento di Politiche End-to-End tramite Generazione di Video Multivista

Abstract

I modelli di azione mondiale (WAM) sono emersi come una direzione promettente per l'apprendimento delle politiche robotiche, poiché possono sfruttare potenti modelli di base video per modellare gli stati futuri. Tuttavia, gli approcci esistenti spesso si basano su moduli di azione separati o utilizzano rappresentazioni delle azioni che non sono ancorate ai pixel, rendendo difficile sfruttare appieno la conoscenza pre-addestrata dei modelli video e limitando il trasferimento tra punti di vista e ambienti. In questo lavoro, presentiamo Action Images, un modello di azione mondiale unificato che formula l'apprendimento delle politiche come generazione di video multiview. Invece di codificare il controllo come token a bassa dimensionalità, traduciamo le azioni robotiche a 7 gradi di libertà in action image interpretabili: video d'azione multiview che sono ancorati ai pixel 2D e tracciano esplicitamente il movimento del braccio robotico. Questa rappresentazione dell'azione ancorata ai pixel consente al modello video stesso di fungere da politica zero-shot, senza una testa di politica separata o un modulo di azione. Oltre al controllo, lo stesso modello unificato supporta la generazione congiunta video-azione, la generazione di video condizionata all'azione e l'etichettatura delle azioni sotto una rappresentazione condivisa. Su RLBench e sulle valutazioni nel mondo reale, il nostro modello raggiunge i tassi di successo zero-shot più elevati e migliora la qualità della generazione congiunta video-azione rispetto ai precedenti modelli mondiali nello spazio video, suggerendo che le action image interpretabili sono una strada promettente per l'apprendimento delle politiche.

English

World action models (WAMs) have emerged as a promising direction for robot policy learning, as they can leverage powerful video backbones to model the future states. However, existing approaches often rely on separate action modules, or use action representations that are not pixel-grounded, making it difficult to fully exploit the pretrained knowledge of video models and limiting transfer across viewpoints and environments. In this work, we present Action Images, a unified world action model that formulates policy learning as multiview video generation. Instead of encoding control as low-dimensional tokens, we translate 7-DoF robot actions into interpretable action images: multi-view action videos that are grounded in 2D pixels and explicitly track robot-arm motion. This pixel-grounded action representation allows the video backbone itself to act as a zero-shot policy, without a separate policy head or action module. Beyond control, the same unified model supports video-action joint generation, action-conditioned video generation, and action labeling under a shared representation. On RLBench and real-world evaluations, our model achieves the strongest zero-shot success rates and improves video-action joint generation quality over prior video-space world models, suggesting that interpretable action images are a promising route to policy learning.

Immagini d'Azione: Apprendimento di Politiche End-to-End tramite Generazione di Video Multivista

Action Images: End-to-End Policy Learning via Multiview Video Generation

Abstract

Support