VideoVLA: Videogeneratoren als generalisierbare Roboter-Manipulatoren
VideoVLA: Video Generators Can Be Generalizable Robot Manipulators
December 7, 2025
papers.authors: Yichao Shen, Fangyun Wei, Zhiying Du, Yaobo Liang, Yan Lu, Jiaolong Yang, Nanning Zheng, Baining Guo
cs.AI
papers.abstract
Generalisierung in der Robotermanipulation ist entscheidend für den Einsatz von Robotern in offenen Umgebungen und für den Fortschritt hin zu einer allgemeinen künstlichen Intelligenz. Obwohl aktuelle Vision-Language-Action (VLA)-Modelle große vortrainierte Verständnismodelle für die Wahrnehmung und Befolgung von Anweisungen nutzen, bleibt ihre Fähigkeit, sich auf neue Aufgaben, Objekte und Situationen zu verallgemeinern, begrenzt. In dieser Arbeit stellen wir VideoVLA vor, einen einfachen Ansatz, der das Potenzial untersucht, große Videogenerierungsmodelle in robotische VLA-Manipulatoren umzuwandeln. Basierend auf einer Sprachaufforderung und einem Bild sagt VideoVLA eine Aktionssequenz sowie die zukünftigen visuellen Ergebnisse voraus. Auf einem multimodalen Diffusion Transformer aufbauend, modelliert VideoVLA gemeinsam Video-, Sprach- und Aktionsmodalitäten und nutzt vortrainierte Videogenerierungsmodelle für die gemeinsame visuelle und aktionelle Vorhersage. Unsere Experimente zeigen, dass hochwertig imaginierte Zukunftsszenarien mit zuverlässigen Aktionsvorhersagen und Aufgaben-erfolg korrelieren, was die Bedeutung der visuellen Imagination für die Manipulation unterstreicht. VideoVLA demonstriert eine starke Generalisierungsfähigkeit, einschließlich der Imitation von Fähigkeiten anderer Embodiments und dem Umgang mit neuen Objekten. Diese Dual-Prädiktions-Strategie – die Vorhersage sowohl von Aktionen als auch ihrer visuellen Konsequenzen – erforscht einen Paradigmenwechsel im Robotik-Lernen und erschließt Generalisierungsfähigkeiten in Manipulationssystemen.
English
Generalization in robot manipulation is essential for deploying robots in open-world environments and advancing toward artificial general intelligence. While recent Vision-Language-Action (VLA) models leverage large pre-trained understanding models for perception and instruction following, their ability to generalize to novel tasks, objects, and settings remains limited. In this work, we present VideoVLA, a simple approach that explores the potential of transforming large video generation models into robotic VLA manipulators. Given a language instruction and an image, VideoVLA predicts an action sequence as well as the future visual outcomes. Built on a multi-modal Diffusion Transformer, VideoVLA jointly models video, language, and action modalities, using pre-trained video generative models for joint visual and action forecasting. Our experiments show that high-quality imagined futures correlate with reliable action predictions and task success, highlighting the importance of visual imagination in manipulation. VideoVLA demonstrates strong generalization, including imitating other embodiments' skills and handling novel objects. This dual-prediction strategy - forecasting both actions and their visual consequences - explores a paradigm shift in robot learning and unlocks generalization capabilities in manipulation systems.