VideoVLA: Los generadores de video pueden ser manipuladores robóticos generalizables
VideoVLA: Video Generators Can Be Generalizable Robot Manipulators
December 7, 2025
Autores: Yichao Shen, Fangyun Wei, Zhiying Du, Yaobo Liang, Yan Lu, Jiaolong Yang, Nanning Zheng, Baining Guo
cs.AI
Resumen
La generalización en la manipulación robótica es esencial para desplegar robots en entornos de mundo abierto y avanzar hacia la inteligencia artificial general. Si bien los modelos recientes Visión-Lenguaje-Acción (VLA) aprovechan grandes modelos de comprensión preentrenados para la percepción y el seguimiento de instrucciones, su capacidad para generalizar a tareas, objetos y entornos novedosos sigue siendo limitada. En este trabajo, presentamos VideoVLA, un enfoque sencillo que explora el potencial de transformar grandes modelos de generación de vídeo en manipuladores robóticos VLA. Dada una instrucción de lenguaje y una imagen, VideoVLA predice una secuencia de acciones así como los resultados visuales futuros. Construido sobre un Transformer de Difusión multimodal, VideoVLA modela conjuntamente los modales de vídeo, lenguaje y acción, utilizando modelos generativos de vídeo preentrenados para la predicción conjunta visual y de acciones. Nuestros experimentos muestran que los futuros imaginados de alta calidad se correlacionan con predicciones de acción confiables y éxito en la tarea, destacando la importancia de la imaginación visual en la manipulación. VideoVLA demuestra una fuerte generalización, incluyendo la imitación de habilidades de otras embodiciones y el manejo de objetos novedosos. Esta estrategia de predicción dual -predecir tanto las acciones como sus consecuencias visuales- explora un cambio de paradigma en el aprendizaje robótico y desbloquea capacidades de generalización en sistemas de manipulación.
English
Generalization in robot manipulation is essential for deploying robots in open-world environments and advancing toward artificial general intelligence. While recent Vision-Language-Action (VLA) models leverage large pre-trained understanding models for perception and instruction following, their ability to generalize to novel tasks, objects, and settings remains limited. In this work, we present VideoVLA, a simple approach that explores the potential of transforming large video generation models into robotic VLA manipulators. Given a language instruction and an image, VideoVLA predicts an action sequence as well as the future visual outcomes. Built on a multi-modal Diffusion Transformer, VideoVLA jointly models video, language, and action modalities, using pre-trained video generative models for joint visual and action forecasting. Our experiments show that high-quality imagined futures correlate with reliable action predictions and task success, highlighting the importance of visual imagination in manipulation. VideoVLA demonstrates strong generalization, including imitating other embodiments' skills and handling novel objects. This dual-prediction strategy - forecasting both actions and their visual consequences - explores a paradigm shift in robot learning and unlocks generalization capabilities in manipulation systems.