ChatPaper.aiChatPaper

RynnVLA-001: Utilizzo di dimostrazioni umane per migliorare la manipolazione robotica

RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

September 18, 2025
Autori: Yuming Jiang, Siteng Huang, Shengke Xue, Yaxi Zhao, Jun Cen, Sicong Leng, Kehan Li, Jiayan Guo, Kexiang Wang, Mingxiu Chen, Fan Wang, Deli Zhao, Xin Li
cs.AI

Abstract

Questo articolo presenta RynnVLA-001, un modello visione-linguaggio-azione (VLA) basato su un pre-addestramento generativo su larga scala da dimostrazioni umane. Proponiamo una metodologia innovativa di pre-addestramento in due fasi. La prima fase, Pre-addestramento Generativo su Video Ego-Centrici, addestra un modello da Immagine a Video su 12 milioni di video di manipolazione ego-centrici per prevedere fotogrammi futuri condizionati da un fotogramma iniziale e un'istruzione linguistica. La seconda fase, Modellazione Traiettoria-Consapevole Umano-Centric, estende questo approccio prevedendo congiuntamente le traiettorie future dei punti chiave, collegando efficacemente la previsione dei fotogrammi visivi con la previsione delle azioni. Inoltre, per migliorare la rappresentazione delle azioni, proponiamo ActionVAE, un autoencoder variazionale che comprime sequenze di azioni in embedding latenti compatti, riducendo la complessità dello spazio di output del modello VLA. Quando fine-tuned sugli stessi dataset robotici downstream, RynnVLA-001 raggiunge prestazioni superiori rispetto ai benchmark più avanzati, dimostrando che la strategia di pre-addestramento proposta fornisce un'inizializzazione più efficace per i modelli VLA.
English
This paper presents RynnVLA-001, a vision-language-action(VLA) model built upon large-scale video generative pretraining from human demonstrations. We propose a novel two-stage pretraining methodology. The first stage, Ego-Centric Video Generative Pretraining, trains an Image-to-Video model on 12M ego-centric manipulation videos to predict future frames conditioned on an initial frame and a language instruction. The second stage, Human-Centric Trajectory-Aware Modeling, extends this by jointly predicting future keypoint trajectories, thereby effectively bridging visual frame prediction with action prediction. Furthermore, to enhance action representation, we propose ActionVAE, a variational autoencoder that compresses sequences of actions into compact latent embeddings, reducing the complexity of the VLA output space. When finetuned on the same downstream robotics datasets, RynnVLA-001 achieves superior performance over state-of-the-art baselines, demonstrating that the proposed pretraining strategy provides a more effective initialization for VLA models.
PDF212September 19, 2025