RynnVLA-001 : Utilisation de démonstrations humaines pour améliorer la manipulation robotique
RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation
September 18, 2025
papers.authors: Yuming Jiang, Siteng Huang, Shengke Xue, Yaxi Zhao, Jun Cen, Sicong Leng, Kehan Li, Jiayan Guo, Kexiang Wang, Mingxiu Chen, Fan Wang, Deli Zhao, Xin Li
cs.AI
papers.abstract
Cet article présente RynnVLA-001, un modèle vision-langue-action (VLA) construit sur un pré-entraînement génératif à grande échelle à partir de démonstrations humaines. Nous proposons une méthodologie de pré-entraînement en deux étapes novatrice. La première étape, le Pré-entraînement Génératif sur Vidéos Egocentriques, entraîne un modèle Image-à-Vidéo sur 12 millions de vidéos de manipulation egocentriques pour prédire les images futures conditionnées par une image initiale et une instruction langagière. La deuxième étape, la Modélisation Consciente des Trajectoires Centrées sur l'Humain, étend cette approche en prédisant conjointement les trajectoires futures des points clés, établissant ainsi un pont efficace entre la prédiction d'images visuelles et la prédiction d'actions. De plus, pour améliorer la représentation des actions, nous proposons ActionVAE, un autoencodeur variationnel qui compresse des séquences d'actions en des embeddings latents compacts, réduisant ainsi la complexité de l'espace de sortie du modèle VLA. Lorsqu'il est affiné sur les mêmes ensembles de données robotiques en aval, RynnVLA-001 obtient des performances supérieures aux meilleures méthodes de référence, démontrant que la stratégie de pré-entraînement proposée offre une initialisation plus efficace pour les modèles VLA.
English
This paper presents RynnVLA-001, a vision-language-action(VLA) model built
upon large-scale video generative pretraining from human demonstrations. We
propose a novel two-stage pretraining methodology. The first stage, Ego-Centric
Video Generative Pretraining, trains an Image-to-Video model on 12M ego-centric
manipulation videos to predict future frames conditioned on an initial frame
and a language instruction. The second stage, Human-Centric Trajectory-Aware
Modeling, extends this by jointly predicting future keypoint trajectories,
thereby effectively bridging visual frame prediction with action prediction.
Furthermore, to enhance action representation, we propose ActionVAE, a
variational autoencoder that compresses sequences of actions into compact
latent embeddings, reducing the complexity of the VLA output space. When
finetuned on the same downstream robotics datasets, RynnVLA-001 achieves
superior performance over state-of-the-art baselines, demonstrating that the
proposed pretraining strategy provides a more effective initialization for VLA
models.