Actiebeelden: End-to-End Beleidsleren via Multiview Videogeneratie
Action Images: End-to-End Policy Learning via Multiview Video Generation
April 7, 2026
Auteurs: Haoyu Zhen, Zixian Gao, Qiao Sun, Yilin Zhao, Yuncong Yang, Yilun Du, Tsun-Hsuan Wang, Yi-Ling Qiao, Chuang Gan
cs.AI
Samenvatting
Wereldactiemodellen (WAM's) zijn een veelbelovende richting geworden voor het leren van robotbeleid, omdat ze krachtige videobackbones kunnen benutten om toekomstige toestanden te modelleren. Bestaande benaderingen vertrouwen echter vaak op afzonderlijke actiemodules, of gebruiken actierepresentaties die niet in pixels zijn verankerd, waardoor het moeilijk is om de vooraf getrainde kennis van videomodellen volledig te benutten en de overdracht tussen gezichtspunten en omgevingen wordt beperkt. In dit werk presenteren we Actiebeelden, een verenigd wereldactiemodel dat beleidsleren formuleert als multiview-videogeneratie. In plaats van controle te coderen als laagdimensionale tokens, vertalen we 7-DoF-robotacties naar interpreteerbare actiebeelden: multiview-actievideo's die verankerd zijn in 2D-pixels en de beweging van de robotarm expliciet volgen. Deze in pixels verankerde actierepresentatie stelt de videobackbone zelf in staat om op te treden als een zero-shot-beleid, zonder een aparte beleidskop of actiemodule. Naast controle ondersteunt hetzelfde verenigde model gezamenlijke video-actie-generatie, actie-geconditioneerde videogeneratie en actielabeling onder een gedeelde representatie. Bij evaluaties op RLBench en in de echte wereld behaalt ons model de hoogste zero-shot-succespercentages en verbetert het de kwaliteit van gezamenlijke video-actie-generatie ten opzichte van eerdere wereldmodellen in de videoruimte, wat suggereert dat interpreteerbare actiebeelden een veelbelovende route zijn voor beleidsleren.
English
World action models (WAMs) have emerged as a promising direction for robot policy learning, as they can leverage powerful video backbones to model the future states. However, existing approaches often rely on separate action modules, or use action representations that are not pixel-grounded, making it difficult to fully exploit the pretrained knowledge of video models and limiting transfer across viewpoints and environments. In this work, we present Action Images, a unified world action model that formulates policy learning as multiview video generation. Instead of encoding control as low-dimensional tokens, we translate 7-DoF robot actions into interpretable action images: multi-view action videos that are grounded in 2D pixels and explicitly track robot-arm motion. This pixel-grounded action representation allows the video backbone itself to act as a zero-shot policy, without a separate policy head or action module. Beyond control, the same unified model supports video-action joint generation, action-conditioned video generation, and action labeling under a shared representation. On RLBench and real-world evaluations, our model achieves the strongest zero-shot success rates and improves video-action joint generation quality over prior video-space world models, suggesting that interpretable action images are a promising route to policy learning.