VideoVLA: Geradores de Vídeo Podem Ser Manipuladores Robóticos Generalizáveis

Resumo

A generalização na manipulação robótica é essencial para a implantação de robôs em ambientes de mundo aberto e para o avanço em direção à inteligência artificial geral. Embora os modelos recentes de Visão-Linguagem-Ação (VLA) aproveitem grandes modelos de compreensão pré-treinados para percepção e seguimento de instruções, sua capacidade de generalizar para novas tarefas, objetos e configurações permanece limitada. Neste trabalho, apresentamos o VideoVLA, uma abordagem simples que explora o potencial de transformar grandes modelos de geração de vídeo em manipuladores robóticos VLA. Dada uma instrução de linguagem e uma imagem, o VideoVLA prevê uma sequência de ações, bem como os resultados visuais futuros. Construído sobre um Transformer de Difusão multimodal, o VideoVLA modela conjuntamente as modalidades de vídeo, linguagem e ação, utilizando modelos generativos de vídeo pré-treinados para previsão visual e de ação conjunta. Nossos experimentos mostram que futuros imaginados de alta qualidade correlacionam-se com previsões de ação confiáveis e sucesso na tarefa, destacando a importância da imaginação visual na manipulação. O VideoVLA demonstra uma forte generalização, incluindo a imitação de habilidades de outras embodiments e a manipulação de objetos novos. Esta estratégia de dupla previsão - prever tanto as ações quanto suas consequências visuais - explora uma mudança de paradigma no aprendizado de robôs e desbloqueia capacidades de generalização em sistemas de manipulação.

English

Generalization in robot manipulation is essential for deploying robots in open-world environments and advancing toward artificial general intelligence. While recent Vision-Language-Action (VLA) models leverage large pre-trained understanding models for perception and instruction following, their ability to generalize to novel tasks, objects, and settings remains limited. In this work, we present VideoVLA, a simple approach that explores the potential of transforming large video generation models into robotic VLA manipulators. Given a language instruction and an image, VideoVLA predicts an action sequence as well as the future visual outcomes. Built on a multi-modal Diffusion Transformer, VideoVLA jointly models video, language, and action modalities, using pre-trained video generative models for joint visual and action forecasting. Our experiments show that high-quality imagined futures correlate with reliable action predictions and task success, highlighting the importance of visual imagination in manipulation. VideoVLA demonstrates strong generalization, including imitating other embodiments' skills and handling novel objects. This dual-prediction strategy - forecasting both actions and their visual consequences - explores a paradigm shift in robot learning and unlocks generalization capabilities in manipulation systems.

VideoVLA: Geradores de Vídeo Podem Ser Manipuladores Robóticos Generalizáveis

VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

Resumo

Support