RynnVLA-001: 인간 시연을 활용한 로봇 조작 성능 향상
RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation
September 18, 2025
저자: Yuming Jiang, Siteng Huang, Shengke Xue, Yaxi Zhao, Jun Cen, Sicong Leng, Kehan Li, Jiayan Guo, Kexiang Wang, Mingxiu Chen, Fan Wang, Deli Zhao, Xin Li
cs.AI
초록
본 논문은 인간 시연 데이터를 기반으로 대규모 비디오 생성 사전 학습을 통해 구축된 시각-언어-행동(VLA) 모델인 RynnVLA-001을 소개합니다. 우리는 새로운 2단계 사전 학습 방법론을 제안합니다. 첫 번째 단계인 자아 중심 비디오 생성 사전 학습(Ego-Centric Video Generative Pretraining)은 1,200만 개의 자아 중심 조작 비디오 데이터셋을 사용하여 초기 프레임과 언어 명령어를 조건으로 미래 프레임을 예측하는 이미지-비디오 모델을 학습합니다. 두 번째 단계인 인간 중심 궤적 인식 모델링(Human-Centric Trajectory-Aware Modeling)은 이를 확장하여 미래 키포인트 궤적을 공동으로 예측함으로써 시각적 프레임 예측과 행동 예측을 효과적으로 연결합니다. 또한, 행동 표현을 강화하기 위해 행동 시퀀스를 압축된 잠재 임베딩으로 변환하는 변분 오토인코더인 ActionVAE를 제안하여 VLA 출력 공간의 복잡성을 줄입니다. 동일한 로보틱스 다운스트림 데이터셋에 대해 미세 조정을 수행한 결과, RynnVLA-001은 최신 베이스라인을 능가하는 성능을 달성하며, 제안된 사전 학습 전략이 VLA 모델을 위한 보다 효과적인 초기화를 제공함을 입증합니다.
English
This paper presents RynnVLA-001, a vision-language-action(VLA) model built
upon large-scale video generative pretraining from human demonstrations. We
propose a novel two-stage pretraining methodology. The first stage, Ego-Centric
Video Generative Pretraining, trains an Image-to-Video model on 12M ego-centric
manipulation videos to predict future frames conditioned on an initial frame
and a language instruction. The second stage, Human-Centric Trajectory-Aware
Modeling, extends this by jointly predicting future keypoint trajectories,
thereby effectively bridging visual frame prediction with action prediction.
Furthermore, to enhance action representation, we propose ActionVAE, a
variational autoencoder that compresses sequences of actions into compact
latent embeddings, reducing the complexity of the VLA output space. When
finetuned on the same downstream robotics datasets, RynnVLA-001 achieves
superior performance over state-of-the-art baselines, demonstrating that the
proposed pretraining strategy provides a more effective initialization for VLA
models.