RynnVLA-002: 統一された視覚-言語-行動および世界モデル
RynnVLA-002: A Unified Vision-Language-Action and World Model
November 21, 2025
著者: Jun Cen, Siteng Huang, Yuqian Yuan, Hangjie Yuan, Chaohui Yu, Yuming Jiang, Jiayan Guo, Kehan Li, Hao Luo, Fan Wang, Xin Li, Deli Zhao, Hao Chen
cs.AI
要旨
我々はRynnVLA-002を紹介する。これは統合型のVision-Language-Action(VLA)モデルかつ世界モデルである。世界モデルは行動と視覚入力を活用して将来の画像状態を予測し、環境の基礎物理を学習することで行動生成を洗練させる。逆に、VLAモデルは画像観測から後続の行動を生成し、視覚理解を強化するとともに世界モデルの画像生成を支援する。RynnVLA-002の統合フレームワークにより、環境ダイナミクスと行動計画の共同学習が可能となる。実験結果では、RynnVLA-002が個別のVLAモデルと世界モデルを凌駕し、相互強化が実証された。シミュレーションと実世界ロボットタスクの両方で評価を実施。RynnVLA-002は事前学習なしでLIBEROシミュレーションベンチマークにおいて97.4%の成功率を達成し、実世界のLeRobot実験では統合世界モデルが全体の成功率を50%向上させた。
English
We introduce RynnVLA-002, a unified Vision-Language-Action (VLA) and world model. The world model leverages action and visual inputs to predict future image states, learning the underlying physics of the environment to refine action generation. Conversely, the VLA model produces subsequent actions from image observations, enhancing visual understanding and supporting the world model's image generation. The unified framework of RynnVLA-002 enables joint learning of environmental dynamics and action planning. Our experiments show that RynnVLA-002 surpasses individual VLA and world models, demonstrating their mutual enhancement. We evaluate RynnVLA-002 in both simulation and real-world robot tasks. RynnVLA-002 achieves 97.4% success rate on the LIBERO simulation benchmark without pretraining, while in real-world LeRobot experiments, its integrated world model boosts the overall success rate by 50%.