RynnVLA-001: Het gebruik van menselijke demonstraties om robotmanipulatie te verbeteren
RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation
September 18, 2025
Auteurs: Yuming Jiang, Siteng Huang, Shengke Xue, Yaxi Zhao, Jun Cen, Sicong Leng, Kehan Li, Jiayan Guo, Kexiang Wang, Mingxiu Chen, Fan Wang, Deli Zhao, Xin Li
cs.AI
Samenvatting
Dit artikel presenteert RynnVLA-001, een vision-language-action (VLA) model dat is gebouwd op grootschalige generatieve voorafgaande training van video's uit menselijke demonstraties. We stellen een nieuwe tweefasige methodologie voor voorafgaande training voor. De eerste fase, Ego-Centric Video Generative Pretraining, traint een Image-to-Video model op 12 miljoen ego-centrische manipulatievideo's om toekomstige frames te voorspellen, geconditioneerd op een initieel frame en een taal instructie. De tweede fase, Human-Centric Trajectory-Aware Modeling, breidt dit uit door gezamenlijk toekomstige sleutelpunt trajecten te voorspellen, waardoor visuele framevoorspelling effectief wordt verbonden met actievoorspelling. Verder stellen we, om de actierepresentatie te verbeteren, ActionVAE voor, een variational autoencoder die reeksen van acties comprimeert tot compacte latente embeddings, waardoor de complexiteit van de VLA uitvoerruimte wordt verminderd. Wanneer het model wordt afgestemd op dezelfde downstream robotica datasets, behaalt RynnVLA-001 superieure prestaties ten opzichte van state-of-the-art baselines, wat aantoont dat de voorgestelde voorafgaande trainingsstrategie een effectievere initialisatie biedt voor VLA modellen.
English
This paper presents RynnVLA-001, a vision-language-action(VLA) model built
upon large-scale video generative pretraining from human demonstrations. We
propose a novel two-stage pretraining methodology. The first stage, Ego-Centric
Video Generative Pretraining, trains an Image-to-Video model on 12M ego-centric
manipulation videos to predict future frames conditioned on an initial frame
and a language instruction. The second stage, Human-Centric Trajectory-Aware
Modeling, extends this by jointly predicting future keypoint trajectories,
thereby effectively bridging visual frame prediction with action prediction.
Furthermore, to enhance action representation, we propose ActionVAE, a
variational autoencoder that compresses sequences of actions into compact
latent embeddings, reducing the complexity of the VLA output space. When
finetuned on the same downstream robotics datasets, RynnVLA-001 achieves
superior performance over state-of-the-art baselines, demonstrating that the
proposed pretraining strategy provides a more effective initialization for VLA
models.