ChatPaper.aiChatPaper

VideoVLA: Генераторы видео как универсальные манипуляторы для роботов

VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

December 7, 2025
Авторы: Yichao Shen, Fangyun Wei, Zhiying Du, Yaobo Liang, Yan Lu, Jiaolong Yang, Nanning Zheng, Baining Guo
cs.AI

Аннотация

Обобщение в манипуляционных задачах робототехники имеет ключевое значение для внедрения роботов в реальные условия открытого мира и продвижения к искусственному общему интеллекту. Хотя современные Vision-Language-Action (VLA) модели используют большие предобученные модели понимания для восприятия и выполнения инструкций, их способность к обобщению при работе с новыми задачами, объектами и условиями остаётся ограниченной. В данной работе мы представляем VideoVLA — простой подход, исследующий потенциал преобразования больших моделей генерации видео в роботизированные VLA-манипуляторы. Получая языковую инструкцию и изображение, VideoVLA предсказывает последовательность действий, а также будущие визуальные результаты. Построенная на основе мультимодального Diffusion Transformer, модель VideoVLA совместно моделирует модальности видео, языка и действий, используя предобученные модели генерации видео для совместного визуального и поведенческого прогнозирования. Наши эксперименты показывают, что высококачественное представление будущих состояний коррелирует с надёжным предсказанием действий и успешным выполнением задачи, подчёркивая важность визуального воображения в манипуляции. VideoVLA демонстрирует сильное обобщение, включая имитацию навыков других конфигураций роботов и работу с новыми объектами. Эта стратегия двойного предсказания — прогнозирования как действий, так и их визуальных последствий — исследует смену парадигмы в обучении роботов и раскрывает возможности обобщения в манипуляционных системах.
English
Generalization in robot manipulation is essential for deploying robots in open-world environments and advancing toward artificial general intelligence. While recent Vision-Language-Action (VLA) models leverage large pre-trained understanding models for perception and instruction following, their ability to generalize to novel tasks, objects, and settings remains limited. In this work, we present VideoVLA, a simple approach that explores the potential of transforming large video generation models into robotic VLA manipulators. Given a language instruction and an image, VideoVLA predicts an action sequence as well as the future visual outcomes. Built on a multi-modal Diffusion Transformer, VideoVLA jointly models video, language, and action modalities, using pre-trained video generative models for joint visual and action forecasting. Our experiments show that high-quality imagined futures correlate with reliable action predictions and task success, highlighting the importance of visual imagination in manipulation. VideoVLA demonstrates strong generalization, including imitating other embodiments' skills and handling novel objects. This dual-prediction strategy - forecasting both actions and their visual consequences - explores a paradigm shift in robot learning and unlocks generalization capabilities in manipulation systems.
PDF22December 10, 2025