VideoVLA : Les générateurs vidéo peuvent être des manipulateurs robotiques généralisables
VideoVLA: Video Generators Can Be Generalizable Robot Manipulators
December 7, 2025
papers.authors: Yichao Shen, Fangyun Wei, Zhiying Du, Yaobo Liang, Yan Lu, Jiaolong Yang, Nanning Zheng, Baining Guo
cs.AI
papers.abstract
La généralisation en robotique de manipulation est essentielle pour déployer des robots dans des environnements ouverts et progresser vers l'intelligence artificielle générale. Bien que les modèles Vision-Langage-Action (VLA) récents exploitent de grands modèles de compréhension pré-entraînés pour la perception et le suivi d'instructions, leur capacité à généraliser à de nouvelles tâches, objets et contextes reste limitée. Dans ce travail, nous présentons VideoVLA, une approche simple qui explore le potentiel de transformation de grands modèles de génération vidéo en manipulateurs robotiques VLA. Étant donné une instruction langagière et une image, VideoVLA prédit une séquence d'actions ainsi que les résultats visuels futurs. Construit sur un Transformeur à Diffusion multimodal, VideoVLA modélise conjointement les modalités vidéo, langage et action, en utilisant des modèles génératifs vidéo pré-entraînés pour la prévision visuelle et actionnelle conjointe. Nos expériences montrent que des futurs imaginés de haute qualité corrèlent avec des prédictions d'actions fiables et la réussite des tâches, soulignant l'importance de l'imagination visuelle en manipulation. VideoVLA démontre une forte généralisation, incluant l'imitation de compétences d'autres incarnations et la manipulation de nouveaux objets. Cette stratégie de double prédiction - prévoir à la fois les actions et leurs conséquences visuelles - explore un changement de paradigme dans l'apprentissage robotique et libère des capacités de généralisation dans les systèmes de manipulation.
English
Generalization in robot manipulation is essential for deploying robots in open-world environments and advancing toward artificial general intelligence. While recent Vision-Language-Action (VLA) models leverage large pre-trained understanding models for perception and instruction following, their ability to generalize to novel tasks, objects, and settings remains limited. In this work, we present VideoVLA, a simple approach that explores the potential of transforming large video generation models into robotic VLA manipulators. Given a language instruction and an image, VideoVLA predicts an action sequence as well as the future visual outcomes. Built on a multi-modal Diffusion Transformer, VideoVLA jointly models video, language, and action modalities, using pre-trained video generative models for joint visual and action forecasting. Our experiments show that high-quality imagined futures correlate with reliable action predictions and task success, highlighting the importance of visual imagination in manipulation. VideoVLA demonstrates strong generalization, including imitating other embodiments' skills and handling novel objects. This dual-prediction strategy - forecasting both actions and their visual consequences - explores a paradigm shift in robot learning and unlocks generalization capabilities in manipulation systems.