ChatPaper.aiChatPaper

액션 이미지: 멀티뷰 비디오 생성을 통한 종단간 정책 학습

Action Images: End-to-End Policy Learning via Multiview Video Generation

April 7, 2026
저자: Haoyu Zhen, Zixian Gao, Qiao Sun, Yilin Zhao, Yuncong Yang, Yilun Du, Tsun-Hsuan Wang, Yi-Ling Qiao, Chuang Gan
cs.AI

초록

월드 액션 모델(WAM)은 강력한 비디오 백본을 활용해 미래 상태를 모델링할 수 있어 로봇 정책 학습의 유망한 방향으로 부상하고 있습니다. 그러나 기존 접근법은 종종 별도의 액션 모듈에 의존하거나 픽셀에 기반하지 않은 액션 표현을 사용하여, 비디오 모델의 사전 학습 지식을 완전히 활용하기 어렵고 시점 및 환경 간 전이를 제한하는 문제가 있습니다. 본 연구에서는 정책 학습을 다중 시점 비디오 생성 문제로 공식화하는 통합 월드 액션 모델인 액션 이미지를 제안합니다. 저차원 토큰으로 제어를 인코딩하는 대신, 7-DoF 로봇 동작을 해석 가능한 액션 이미지로 변환합니다. 이는 2D 픽셀에 기반하여 로봇 팔의 움직임을 명시적으로 추적하는 다중 시점 액션 비디오입니다. 이러한 픽셀 기반 액션 표현을 통해 별도의 정책 헤드나 액션 모듈 없이 비디오 백본 자체가 제로샷 정책으로 작동할 수 있습니다. 제어를 넘어 동일한 통합 모델은 공유 표현 하에서 비디오-액션 결합 생성, 액션 조건 비디오 생성 및 액션 레이블링을 지원합니다. RLBench 및 실제 환경 평가에서 우리 모델은 가장 높은 제로샷 성공률을 달성하고, 기존 비디오 공간 월드 모델 대비 비디오-액션 결합 생성 품질을 향상시켜 해석 가능한 액션 이미지가 정책 학습의 유망한 방향임을 시사합니다.
English
World action models (WAMs) have emerged as a promising direction for robot policy learning, as they can leverage powerful video backbones to model the future states. However, existing approaches often rely on separate action modules, or use action representations that are not pixel-grounded, making it difficult to fully exploit the pretrained knowledge of video models and limiting transfer across viewpoints and environments. In this work, we present Action Images, a unified world action model that formulates policy learning as multiview video generation. Instead of encoding control as low-dimensional tokens, we translate 7-DoF robot actions into interpretable action images: multi-view action videos that are grounded in 2D pixels and explicitly track robot-arm motion. This pixel-grounded action representation allows the video backbone itself to act as a zero-shot policy, without a separate policy head or action module. Beyond control, the same unified model supports video-action joint generation, action-conditioned video generation, and action labeling under a shared representation. On RLBench and real-world evaluations, our model achieves the strongest zero-shot success rates and improves video-action joint generation quality over prior video-space world models, suggesting that interpretable action images are a promising route to policy learning.
PDF80April 9, 2026