VideoVLA: Videogeneratoren kunnen generaliseerbare robotmanipulatoren zijn
VideoVLA: Video Generators Can Be Generalizable Robot Manipulators
December 7, 2025
Auteurs: Yichao Shen, Fangyun Wei, Zhiying Du, Yaobo Liang, Yan Lu, Jiaolong Yang, Nanning Zheng, Baining Guo
cs.AI
Samenvatting
Generalisatie in robotmanipulatie is essentieel voor de inzet van robots in open-wereldomgevingen en de vooruitgang naar kunstmatige algemene intelligentie. Hoewel recente Vision-Language-Action (VLA)-modellen gebruikmaken van grote vooraf getrainde begripsmodellen voor perceptie en het opvolgen van instructies, blijft hun vermogen om te generaliseren naar nieuwe taken, objecten en omgevingen beperkt. In dit werk presenteren we VideoVLA, een eenvoudige aanpak die het potentieel onderzoekt om grote videogeneratiemodellen om te zetten in robotische VLA-manipulatoren. Op basis van een taalinstinctie en een beeld voorspelt VideoVLA een actiereeks evenals de toekomstige visuele resultaten. Gebouwd op een multimodale Diffusion Transformer, modelleert VideoVLA gezamenlijk video-, taal- en actiemodaliteiten, waarbij vooraf getrainde videogeneratieve modellen worden gebruikt voor gezamenlijke visuele en actievoorspelling. Onze experimenten tonen aan dat hoogwaardige verbeeldde toekomsten correleren met betrouwbare actievoorspellingen en taaksucces, wat het belang van visuele verbeeldingskracht bij manipulatie benadrukt. VideoVLA toont sterke generalisatie, inclusief het imiteren van vaardigheden van andere embodimenten en het omgaan met nieuwe objecten. Deze dubbele-voorspellingsstrategie – het voorspellen van zowel acties als hun visuele gevolgen – verkent een paradigmaverschuiving in robotleren en ontgrendelt generalisatiecapaciteiten in manipulatiefsystemen.
English
Generalization in robot manipulation is essential for deploying robots in open-world environments and advancing toward artificial general intelligence. While recent Vision-Language-Action (VLA) models leverage large pre-trained understanding models for perception and instruction following, their ability to generalize to novel tasks, objects, and settings remains limited. In this work, we present VideoVLA, a simple approach that explores the potential of transforming large video generation models into robotic VLA manipulators. Given a language instruction and an image, VideoVLA predicts an action sequence as well as the future visual outcomes. Built on a multi-modal Diffusion Transformer, VideoVLA jointly models video, language, and action modalities, using pre-trained video generative models for joint visual and action forecasting. Our experiments show that high-quality imagined futures correlate with reliable action predictions and task success, highlighting the importance of visual imagination in manipulation. VideoVLA demonstrates strong generalization, including imitating other embodiments' skills and handling novel objects. This dual-prediction strategy - forecasting both actions and their visual consequences - explores a paradigm shift in robot learning and unlocks generalization capabilities in manipulation systems.