RynnVLA-001: Utilizando Demonstrações Humanas para Melhorar a Manipulação Robótica
RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation
September 18, 2025
Autores: Yuming Jiang, Siteng Huang, Shengke Xue, Yaxi Zhao, Jun Cen, Sicong Leng, Kehan Li, Jiayan Guo, Kexiang Wang, Mingxiu Chen, Fan Wang, Deli Zhao, Xin Li
cs.AI
Resumo
Este artigo apresenta o RynnVLA-001, um modelo visão-linguagem-ação (VLA) construído com base em pré-treinamento generativo em larga escala a partir de demonstrações humanas. Propomos uma metodologia inovadora de pré-treinamento em duas etapas. A primeira etapa, Pré-Treinamento Generativo em Vídeo Ego-Cêntrico, treina um modelo de Imagem-para-Vídeo em 12 milhões de vídeos de manipulação ego-cêntrica para prever quadros futuros condicionados a um quadro inicial e uma instrução em linguagem natural. A segunda etapa, Modelagem Consciente de Trajetória Humano-Cêntrica, estende isso ao prever conjuntamente trajetórias futuras de pontos-chave, efetivamente conectando a previsão de quadros visuais com a previsão de ações. Além disso, para aprimorar a representação de ações, propomos o ActionVAE, um autoencoder variacional que comprime sequências de ações em embeddings latentes compactos, reduzindo a complexidade do espaço de saída do VLA. Quando ajustado nos mesmos conjuntos de dados de robótica downstream, o RynnVLA-001 alcança desempenho superior em relação às baselines state-of-the-art, demonstrando que a estratégia de pré-treinamento proposta fornece uma inicialização mais eficaz para modelos VLA.
English
This paper presents RynnVLA-001, a vision-language-action(VLA) model built
upon large-scale video generative pretraining from human demonstrations. We
propose a novel two-stage pretraining methodology. The first stage, Ego-Centric
Video Generative Pretraining, trains an Image-to-Video model on 12M ego-centric
manipulation videos to predict future frames conditioned on an initial frame
and a language instruction. The second stage, Human-Centric Trajectory-Aware
Modeling, extends this by jointly predicting future keypoint trajectories,
thereby effectively bridging visual frame prediction with action prediction.
Furthermore, to enhance action representation, we propose ActionVAE, a
variational autoencoder that compresses sequences of actions into compact
latent embeddings, reducing the complexity of the VLA output space. When
finetuned on the same downstream robotics datasets, RynnVLA-001 achieves
superior performance over state-of-the-art baselines, demonstrating that the
proposed pretraining strategy provides a more effective initialization for VLA
models.