Aktionsbilder: End-to-End-Politiklernen durch Multiview-Videogenerierung
Action Images: End-to-End Policy Learning via Multiview Video Generation
April 7, 2026
Autoren: Haoyu Zhen, Zixian Gao, Qiao Sun, Yilin Zhao, Yuncong Yang, Yilun Du, Tsun-Hsuan Wang, Yi-Ling Qiao, Chuang Gan
cs.AI
Zusammenfassung
Weltaktionsmodelle (WAMs) haben sich als vielversprechender Ansatz für das Erlernen von Robotik-Policies etabliert, da sie leistungsstarke Video-Backbones zur Modellierung zukünftiger Zustände nutzen können. Bisherige Ansätze greifen jedoch oft auf separate Aktionsmodule zurück oder verwenden Aktionsrepräsentationen, die nicht pixelbasiert sind. Dies erschwert die vollständige Ausschöpfung des vortrainierten Wissens von Videomodellen und begrenzt die Übertragbarkeit über verschiedene Blickwinkel und Umgebungen hinweg. In dieser Arbeit stellen wir Aktionsbilder vor, ein vereinheitlichtes Weltaktionsmodell, das Policy-Lernen als multiview Video-Generierung formuliert. Anstatt Steuerung in niedrigdimensionalen Tokens zu kodieren, übersetzen wir 7-DoF-Roboteraktionen in interpretierbare Aktionsbilder: multiview Aktionsvideos, die in 2D-Pixeln verankert sind und die Roboterarmbewegung explizit nachverfolgen. Diese pixelbasierte Aktionsrepräsentation ermöglicht es dem Video-Backbone selbst, als Zero-Shot-Policy zu fungieren, ohne separates Policy-Head oder Aktionsmodul. Über die Steuerung hinaus unterstützt dasselbe vereinheitlichte Modell unter einer gemeinsamen Repräsentation die gemeinsame Generierung von Video und Aktion, aktionskonditionierte Videogenerierung und Aktionsbeschriftung. In Evaluierungen mit RLBench und in realen Szenarien erzielt unser Modell die höchsten Zero-Shot-Erfolgsquoten und verbessert die Qualität der gemeinsamen Video-Aktions-Generierung gegenüber bisherigen Video-basierten Weltmodellen, was darauf hindeutet, dass interpretierbare Aktionsbilder ein vielversprechender Weg für Policy-Learning sind.
English
World action models (WAMs) have emerged as a promising direction for robot policy learning, as they can leverage powerful video backbones to model the future states. However, existing approaches often rely on separate action modules, or use action representations that are not pixel-grounded, making it difficult to fully exploit the pretrained knowledge of video models and limiting transfer across viewpoints and environments. In this work, we present Action Images, a unified world action model that formulates policy learning as multiview video generation. Instead of encoding control as low-dimensional tokens, we translate 7-DoF robot actions into interpretable action images: multi-view action videos that are grounded in 2D pixels and explicitly track robot-arm motion. This pixel-grounded action representation allows the video backbone itself to act as a zero-shot policy, without a separate policy head or action module. Beyond control, the same unified model supports video-action joint generation, action-conditioned video generation, and action labeling under a shared representation. On RLBench and real-world evaluations, our model achieves the strongest zero-shot success rates and improves video-action joint generation quality over prior video-space world models, suggesting that interpretable action images are a promising route to policy learning.