Action Images: マルチビュー映像生成によるエンドツーエンドの政策学習
Action Images: End-to-End Policy Learning via Multiview Video Generation
April 7, 2026
著者: Haoyu Zhen, Zixian Gao, Qiao Sun, Yilin Zhao, Yuncong Yang, Yilun Du, Tsun-Hsuan Wang, Yi-Ling Qiao, Chuang Gan
cs.AI
要旨
ワールド・アクション・モデル(WAM)は、強力なビデオバックボーンを活用して未来状態をモデル化できることから、ロボット政策学習の有望な方向性として登場している。しかし、既存の手法は独立したアクションモジュールに依存したり、ピクセル接地されていないアクション表現を使用したりすることが多く、ビデオモデルの事前学習知識を十分に活用することが困難で、視点や環境を跨ぐ転移を制限している。本研究では、政策学習を多視点ビデオ生成として定式化する統一ワールド・アクションモジュールである「アクション画像」を提案する。7自由度ロボット動作を低次元トークンとして符号化する代わりに、解釈可能なアクション画像、すなわち2Dピクセルに接地されロボットアームの動きを明示的に追跡する多視点アクションビデオへと変換する。このピクセル接地されたアクション表現により、分離した政策ヘッドやアクションモジュールを必要とせず、ビデオバックボーン自体がゼロショット政策として機能する。制御に加えて、同じ統一モデルが、共有表現の下で、ビデオ-アクション統合生成、アクション条件付きビデオ生成、アクションラベリングをサポートする。RLBenchおよび実世界評価において、本モデルは最高のゼロショット成功率を達成し、従来のビデオ空間ワールドモデルを上回るビデオ-アクション統合生成品質を実現し、解釈可能なアクション画像が政策学習への有望な道筋であることを示唆している。
English
World action models (WAMs) have emerged as a promising direction for robot policy learning, as they can leverage powerful video backbones to model the future states. However, existing approaches often rely on separate action modules, or use action representations that are not pixel-grounded, making it difficult to fully exploit the pretrained knowledge of video models and limiting transfer across viewpoints and environments. In this work, we present Action Images, a unified world action model that formulates policy learning as multiview video generation. Instead of encoding control as low-dimensional tokens, we translate 7-DoF robot actions into interpretable action images: multi-view action videos that are grounded in 2D pixels and explicitly track robot-arm motion. This pixel-grounded action representation allows the video backbone itself to act as a zero-shot policy, without a separate policy head or action module. Beyond control, the same unified model supports video-action joint generation, action-conditioned video generation, and action labeling under a shared representation. On RLBench and real-world evaluations, our model achieves the strongest zero-shot success rates and improves video-action joint generation quality over prior video-space world models, suggesting that interpretable action images are a promising route to policy learning.