ChatPaper.aiChatPaper

RynnVLA-002: 통합 비전-언어-행동 및 세계 모델

RynnVLA-002: A Unified Vision-Language-Action and World Model

November 21, 2025
저자: Jun Cen, Siteng Huang, Yuqian Yuan, Hangjie Yuan, Chaohui Yu, Yuming Jiang, Jiayan Guo, Kehan Li, Hao Luo, Fan Wang, Xin Li, Deli Zhao, Hao Chen
cs.AI

초록

RynnVLA-002는 통합된 Vision-Language-Action(VLA) 및 월드 모델입니다. 이 월드 모델은 동작과 시각 입력을 활용하여 미래의 이미지 상태를 예측하고, 환경의 기초 물리를 학습하여 동작 생성을 정교화합니다. 반대로, VLA 모델은 이미지 관측으로부터 후속 동작을 생성하여 시각 이해를 향상시키고 월드 모델의 이미지 생성을 지원합니다. RynnVLA-002의 통합 프레임워크는 환경 역학과 동작 계획의 결합 학습을 가능하게 합니다. 우리의 실험 결과, RynnVLA-002가 개별 VLA 및 월드 모델을 능가하며 상호 향상 효과를 보여줍니다. RynnVLA-002는 시뮬레이션과 실제 로봇 과제 모두에서 평가되었습니다. RynnVLA-002는 사전 훈련 없이 LIBERO 시뮬레이션 벤치마크에서 97.4%의 성공률을 달성했으며, 실제 LeRobot 실험에서는 통합 월드 모델이 전체 성공률을 50% 향상시켰습니다.
English
We introduce RynnVLA-002, a unified Vision-Language-Action (VLA) and world model. The world model leverages action and visual inputs to predict future image states, learning the underlying physics of the environment to refine action generation. Conversely, the VLA model produces subsequent actions from image observations, enhancing visual understanding and supporting the world model's image generation. The unified framework of RynnVLA-002 enables joint learning of environmental dynamics and action planning. Our experiments show that RynnVLA-002 surpasses individual VLA and world models, demonstrating their mutual enhancement. We evaluate RynnVLA-002 in both simulation and real-world robot tasks. RynnVLA-002 achieves 97.4% success rate on the LIBERO simulation benchmark without pretraining, while in real-world LeRobot experiments, its integrated world model boosts the overall success rate by 50%.
PDF242December 1, 2025