ChatPaper.aiChatPaper

RynnVLA-001: Uso de demostraciones humanas para mejorar la manipulación robótica

RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

September 18, 2025
Autores: Yuming Jiang, Siteng Huang, Shengke Xue, Yaxi Zhao, Jun Cen, Sicong Leng, Kehan Li, Jiayan Guo, Kexiang Wang, Mingxiu Chen, Fan Wang, Deli Zhao, Xin Li
cs.AI

Resumen

Este artículo presenta RynnVLA-001, un modelo visión-lenguaje-acción (VLA) construido sobre un preentrenamiento generativo a gran escala a partir de demostraciones humanas. Proponemos una metodología novedosa de preentrenamiento en dos etapas. La primera etapa, Preentrenamiento Generativo de Vídeo Egocéntrico, entrena un modelo de Imagen-a-Vídeo en 12 millones de vídeos egocéntricos de manipulación para predecir fotogramas futuros condicionados a un fotograma inicial y una instrucción en lenguaje natural. La segunda etapa, Modelado Consciente de Trayectorias Centrado en Humanos, extiende esto al predecir conjuntamente trayectorias futuras de puntos clave, conectando así de manera efectiva la predicción de fotogramas visuales con la predicción de acciones. Además, para mejorar la representación de las acciones, proponemos ActionVAE, un autoencoder variacional que comprime secuencias de acciones en incrustaciones latentes compactas, reduciendo la complejidad del espacio de salida del modelo VLA. Cuando se ajusta en los mismos conjuntos de datos de robótica, RynnVLA-001 logra un rendimiento superior al de los modelos de referencia más avanzados, demostrando que la estrategia de preentrenamiento propuesta proporciona una inicialización más efectiva para los modelos VLA.
English
This paper presents RynnVLA-001, a vision-language-action(VLA) model built upon large-scale video generative pretraining from human demonstrations. We propose a novel two-stage pretraining methodology. The first stage, Ego-Centric Video Generative Pretraining, trains an Image-to-Video model on 12M ego-centric manipulation videos to predict future frames conditioned on an initial frame and a language instruction. The second stage, Human-Centric Trajectory-Aware Modeling, extends this by jointly predicting future keypoint trajectories, thereby effectively bridging visual frame prediction with action prediction. Furthermore, to enhance action representation, we propose ActionVAE, a variational autoencoder that compresses sequences of actions into compact latent embeddings, reducing the complexity of the VLA output space. When finetuned on the same downstream robotics datasets, RynnVLA-001 achieves superior performance over state-of-the-art baselines, demonstrating that the proposed pretraining strategy provides a more effective initialization for VLA models.
PDF202September 19, 2025