VideoVLA: I generatori di video possono essere manipolatori robotici generalizzabili
VideoVLA: Video Generators Can Be Generalizable Robot Manipulators
December 7, 2025
Autori: Yichao Shen, Fangyun Wei, Zhiying Du, Yaobo Liang, Yan Lu, Jiaolong Yang, Nanning Zheng, Baining Guo
cs.AI
Abstract
La generalizzazione nella manipolazione robotica è essenziale per implementare i robot in ambienti open-world e progredire verso l'intelligenza artificiale generale. Sebbene i recenti modelli Visione-Linguaggio-Azione (VLA) sfruttino modelli di comprensione pre-addestrati su larga scala per la percezione e l'adempimento di istruzioni, la loro capacità di generalizzare verso nuovi compiti, oggetti e contesti rimane limitata. In questo lavoro presentiamo VideoVLA, un approccio semplice che esplora il potenziale della trasformazione di grandi modelli di generazione video in manipolatori robotici VLA. Dati un'istruzione linguistica e un'immagine, VideoVLA predice una sequenza di azioni insieme ai risultati visivi futuri. Basato su un Diffusion Transformer multimodale, VideoVLA modella congiuntamente le modalità video, linguaggio e azione, utilizzando modelli generativi video pre-addestrati per la previsione visiva e azionale congiunta. I nostri esperimenti dimostrano che futuri immaginati di alta qualità si correlano con previsioni azionali affidabili e successo del compito, sottolineando l'importanza dell'immaginazione visiva nella manipolazione. VideoVLA mostra una forte generalizzazione, inclusa l'imitazione di abilità di altre embodiment e la gestione di oggetti nuovi. Questa strategia di doppia previsione – che prevede sia le azioni che le loro conseguenze visive – esplora un cambio di paradigma nell'apprendimento robotico e sblocca capacità di generalizzazione nei sistemi di manipolazione.
English
Generalization in robot manipulation is essential for deploying robots in open-world environments and advancing toward artificial general intelligence. While recent Vision-Language-Action (VLA) models leverage large pre-trained understanding models for perception and instruction following, their ability to generalize to novel tasks, objects, and settings remains limited. In this work, we present VideoVLA, a simple approach that explores the potential of transforming large video generation models into robotic VLA manipulators. Given a language instruction and an image, VideoVLA predicts an action sequence as well as the future visual outcomes. Built on a multi-modal Diffusion Transformer, VideoVLA jointly models video, language, and action modalities, using pre-trained video generative models for joint visual and action forecasting. Our experiments show that high-quality imagined futures correlate with reliable action predictions and task success, highlighting the importance of visual imagination in manipulation. VideoVLA demonstrates strong generalization, including imitating other embodiments' skills and handling novel objects. This dual-prediction strategy - forecasting both actions and their visual consequences - explores a paradigm shift in robot learning and unlocks generalization capabilities in manipulation systems.