VideoVLA: 비디오 생성기를 일반화 가능한 로봇 매니퓰레이터로 활용하기
VideoVLA: Video Generators Can Be Generalizable Robot Manipulators
December 7, 2025
저자: Yichao Shen, Fangyun Wei, Zhiying Du, Yaobo Liang, Yan Lu, Jiaolong Yang, Nanning Zheng, Baining Guo
cs.AI
초록
로봇 조작에서의 일반화는 개방형 환경에서 로봇을 배치하고 인공 일반 지능(AGI)으로 나아가기 위한 필수 요소입니다. 최근의 시각-언어-행동(VLA) 모델들은 대규모 사전 학습된 이해 모델을 활용하여 지각 및 지시 수행 능력을 갖추고 있지만, 새로운 작업, 객체, 환경에 대한 일반화 능력은 여전히 제한적입니다. 본 연구에서는 대규모 비디오 생성 모델을 로봇 VLA 조작기로 변환하는 가능성을 탐구하는 간단한 접근법인 VideoVLA를 제시합니다. 언어 지시와 이미지가 주어지면 VideoVLA는 행동 순서와 미래의 시각적 결과를 예측합니다. 다중 모드 Diffusion Transformer를 기반으로 하는 VideoVLA는 비디오, 언어, 행동 양식을 공동으로 모델링하며, 사전 학습된 비디오 생성 모델을 사용하여 시각 및 행동 예측을 결합합니다. 우리의 실험은 높은 품질의 예측된 미래가 신뢰할 수 있는 행동 예측 및 작업 성공과 상관관계가 있음을 보여주며, 조작에서 시각적 상상력의 중요성을 강조합니다. VideoVLA는 다른 구현체의 기술 모방 및 새로운 객체 처리를 포함한 강력한 일반화 능력을 입증합니다. 이중 예측 전략(행동과 그에 따른 시각적 결과를 모두 예측)은 로봇 학습의 패러다임 전환을 탐구하고 조작 시스템의 일반화 능력을 개방합니다.
English
Generalization in robot manipulation is essential for deploying robots in open-world environments and advancing toward artificial general intelligence. While recent Vision-Language-Action (VLA) models leverage large pre-trained understanding models for perception and instruction following, their ability to generalize to novel tasks, objects, and settings remains limited. In this work, we present VideoVLA, a simple approach that explores the potential of transforming large video generation models into robotic VLA manipulators. Given a language instruction and an image, VideoVLA predicts an action sequence as well as the future visual outcomes. Built on a multi-modal Diffusion Transformer, VideoVLA jointly models video, language, and action modalities, using pre-trained video generative models for joint visual and action forecasting. Our experiments show that high-quality imagined futures correlate with reliable action predictions and task success, highlighting the importance of visual imagination in manipulation. VideoVLA demonstrates strong generalization, including imitating other embodiments' skills and handling novel objects. This dual-prediction strategy - forecasting both actions and their visual consequences - explores a paradigm shift in robot learning and unlocks generalization capabilities in manipulation systems.