ChatPaper.aiChatPaper

RynnVLA-001: Использование демонстраций человека для улучшения манипуляционных навыков робота

RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

September 18, 2025
Авторы: Yuming Jiang, Siteng Huang, Shengke Xue, Yaxi Zhao, Jun Cen, Sicong Leng, Kehan Li, Jiayan Guo, Kexiang Wang, Mingxiu Chen, Fan Wang, Deli Zhao, Xin Li
cs.AI

Аннотация

В данной статье представлена модель RynnVLA-001, объединяющая зрение, язык и действия (Vision-Language-Action, VLA), основанная на крупномасштабном генеративном предобучении с использованием видеозаписей человеческих демонстраций. Мы предлагаем новую двухэтапную методологию предобучения. На первом этапе, называемом Ego-Centric Video Generative Pretraining, обучается модель преобразования изображений в видео на основе 12 миллионов эгоцентричных видеозаписей манипуляций, чтобы предсказывать будущие кадры, учитывая начальный кадр и текстовую инструкцию. Второй этап, Human-Centric Trajectory-Aware Modeling, расширяет этот подход, совместно предсказывая траектории ключевых точек, что эффективно связывает предсказание визуальных кадров с предсказанием действий. Кроме того, для улучшения представления действий мы предлагаем ActionVAE — вариационный автоэнкодер, который сжимает последовательности действий в компактные латентные представления, уменьшая сложность пространства выходных данных модели VLA. При дообучении на тех же наборах данных для робототехники модель RynnVLA-001 демонстрирует превосходную производительность по сравнению с современными базовыми методами, что подтверждает, что предложенная стратегия предобучения обеспечивает более эффективную инициализацию для моделей VLA.
English
This paper presents RynnVLA-001, a vision-language-action(VLA) model built upon large-scale video generative pretraining from human demonstrations. We propose a novel two-stage pretraining methodology. The first stage, Ego-Centric Video Generative Pretraining, trains an Image-to-Video model on 12M ego-centric manipulation videos to predict future frames conditioned on an initial frame and a language instruction. The second stage, Human-Centric Trajectory-Aware Modeling, extends this by jointly predicting future keypoint trajectories, thereby effectively bridging visual frame prediction with action prediction. Furthermore, to enhance action representation, we propose ActionVAE, a variational autoencoder that compresses sequences of actions into compact latent embeddings, reducing the complexity of the VLA output space. When finetuned on the same downstream robotics datasets, RynnVLA-001 achieves superior performance over state-of-the-art baselines, demonstrating that the proposed pretraining strategy provides a more effective initialization for VLA models.
PDF202September 19, 2025