VideoVLA: 映像生成モデルは汎用ロボットマニピュレータとなりうる
VideoVLA: Video Generators Can Be Generalizable Robot Manipulators
December 7, 2025
著者: Yichao Shen, Fangyun Wei, Zhiying Du, Yaobo Liang, Yan Lu, Jiaolong Yang, Nanning Zheng, Baining Guo
cs.AI
要旨
ロボットマニピュレーションにおける一般化は、オープンワールド環境へのロボット導入と人工汎用知能の実現に向けて不可欠である。近年のVLA(Vision-Language-Action)モデルは大規模事前学習済み理解モデルを知覚と指示追従に活用するが、新規タスク・物体・環境への一般化能力は依然限定的である。本研究では、大規模ビデオ生成モデルをロボットVLAマニピュレーターへ変換する可能性を探る簡便な手法「VideoVLA」を提案する。言語指示と画像を入力としたVideoVLAは、行動系列と将来の視覚的結果を予測する。マルチモーダルDiffusion Transformerを基盤とし、事前学習済みビデオ生成モデルを用いて視覚と行動の統合的予測を実現する。実験では、高品質な未来想像が信頼性の高い行動予測とタスク成功に相関することを示し、マニピュレーションにおける視覚的想像力の重要性を明らかにした。VideoVLAは他エンボディメントの技能模倣や新規物体操作を含む強力な一般化能力を発揮する。行動とその視覚的結果の双方を予測するこの二重予測戦略は、ロボット学習におけるパラダイム転換を探求し、マニピュレーションシステムの一般化能力を解放するものである。
English
Generalization in robot manipulation is essential for deploying robots in open-world environments and advancing toward artificial general intelligence. While recent Vision-Language-Action (VLA) models leverage large pre-trained understanding models for perception and instruction following, their ability to generalize to novel tasks, objects, and settings remains limited. In this work, we present VideoVLA, a simple approach that explores the potential of transforming large video generation models into robotic VLA manipulators. Given a language instruction and an image, VideoVLA predicts an action sequence as well as the future visual outcomes. Built on a multi-modal Diffusion Transformer, VideoVLA jointly models video, language, and action modalities, using pre-trained video generative models for joint visual and action forecasting. Our experiments show that high-quality imagined futures correlate with reliable action predictions and task success, highlighting the importance of visual imagination in manipulation. VideoVLA demonstrates strong generalization, including imitating other embodiments' skills and handling novel objects. This dual-prediction strategy - forecasting both actions and their visual consequences - explores a paradigm shift in robot learning and unlocks generalization capabilities in manipulation systems.