RynnVLA-001: Utilizando Demonstrações Humanas para Melhorar a Manipulação Robótica

Resumo

Este artigo apresenta o RynnVLA-001, um modelo visão-linguagem-ação (VLA) construído com base em pré-treinamento generativo em larga escala a partir de demonstrações humanas. Propomos uma metodologia inovadora de pré-treinamento em duas etapas. A primeira etapa, Pré-Treinamento Generativo em Vídeo Ego-Cêntrico, treina um modelo de Imagem-para-Vídeo em 12 milhões de vídeos de manipulação ego-cêntrica para prever quadros futuros condicionados a um quadro inicial e uma instrução em linguagem natural. A segunda etapa, Modelagem Consciente de Trajetória Humano-Cêntrica, estende isso ao prever conjuntamente trajetórias futuras de pontos-chave, efetivamente conectando a previsão de quadros visuais com a previsão de ações. Além disso, para aprimorar a representação de ações, propomos o ActionVAE, um autoencoder variacional que comprime sequências de ações em embeddings latentes compactos, reduzindo a complexidade do espaço de saída do VLA. Quando ajustado nos mesmos conjuntos de dados de robótica downstream, o RynnVLA-001 alcança desempenho superior em relação às baselines state-of-the-art, demonstrando que a estratégia de pré-treinamento proposta fornece uma inicialização mais eficaz para modelos VLA.

English

This paper presents RynnVLA-001, a vision-language-action(VLA) model built upon large-scale video generative pretraining from human demonstrations. We propose a novel two-stage pretraining methodology. The first stage, Ego-Centric Video Generative Pretraining, trains an Image-to-Video model on 12M ego-centric manipulation videos to predict future frames conditioned on an initial frame and a language instruction. The second stage, Human-Centric Trajectory-Aware Modeling, extends this by jointly predicting future keypoint trajectories, thereby effectively bridging visual frame prediction with action prediction. Furthermore, to enhance action representation, we propose ActionVAE, a variational autoencoder that compresses sequences of actions into compact latent embeddings, reducing the complexity of the VLA output space. When finetuned on the same downstream robotics datasets, RynnVLA-001 achieves superior performance over state-of-the-art baselines, demonstrating that the proposed pretraining strategy provides a more effective initialization for VLA models.

RynnVLA-001: Utilizando Demonstrações Humanas para Melhorar a Manipulação Robótica

RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

Resumo

Support