ChatPaper.aiChatPaper

RynnVLA-001: Utilizando Demonstrações Humanas para Melhorar a Manipulação Robótica

RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

September 18, 2025
Autores: Yuming Jiang, Siteng Huang, Shengke Xue, Yaxi Zhao, Jun Cen, Sicong Leng, Kehan Li, Jiayan Guo, Kexiang Wang, Mingxiu Chen, Fan Wang, Deli Zhao, Xin Li
cs.AI

Resumo

Este artigo apresenta o RynnVLA-001, um modelo visão-linguagem-ação (VLA) construído com base em pré-treinamento generativo em larga escala a partir de demonstrações humanas. Propomos uma metodologia inovadora de pré-treinamento em duas etapas. A primeira etapa, Pré-Treinamento Generativo em Vídeo Ego-Cêntrico, treina um modelo de Imagem-para-Vídeo em 12 milhões de vídeos de manipulação ego-cêntrica para prever quadros futuros condicionados a um quadro inicial e uma instrução em linguagem natural. A segunda etapa, Modelagem Consciente de Trajetória Humano-Cêntrica, estende isso ao prever conjuntamente trajetórias futuras de pontos-chave, efetivamente conectando a previsão de quadros visuais com a previsão de ações. Além disso, para aprimorar a representação de ações, propomos o ActionVAE, um autoencoder variacional que comprime sequências de ações em embeddings latentes compactos, reduzindo a complexidade do espaço de saída do VLA. Quando ajustado nos mesmos conjuntos de dados de robótica downstream, o RynnVLA-001 alcança desempenho superior em relação às baselines state-of-the-art, demonstrando que a estratégia de pré-treinamento proposta fornece uma inicialização mais eficaz para modelos VLA.
English
This paper presents RynnVLA-001, a vision-language-action(VLA) model built upon large-scale video generative pretraining from human demonstrations. We propose a novel two-stage pretraining methodology. The first stage, Ego-Centric Video Generative Pretraining, trains an Image-to-Video model on 12M ego-centric manipulation videos to predict future frames conditioned on an initial frame and a language instruction. The second stage, Human-Centric Trajectory-Aware Modeling, extends this by jointly predicting future keypoint trajectories, thereby effectively bridging visual frame prediction with action prediction. Furthermore, to enhance action representation, we propose ActionVAE, a variational autoencoder that compresses sequences of actions into compact latent embeddings, reducing the complexity of the VLA output space. When finetuned on the same downstream robotics datasets, RynnVLA-001 achieves superior performance over state-of-the-art baselines, demonstrating that the proposed pretraining strategy provides a more effective initialization for VLA models.
PDF212September 19, 2025