ChatPaper.aiChatPaper

RynnVLA-002: Ein vereinheitlichtes Vision-Language-Action- und Weltmodell

RynnVLA-002: A Unified Vision-Language-Action and World Model

November 21, 2025
papers.authors: Jun Cen, Siteng Huang, Yuqian Yuan, Hangjie Yuan, Chaohui Yu, Yuming Jiang, Jiayan Guo, Kehan Li, Hao Luo, Fan Wang, Xin Li, Deli Zhao, Hao Chen
cs.AI

papers.abstract

Wir stellen RynnVLA-002 vor, ein vereinheitlichtes Vision-Language-Action (VLA)- und Weltmodell. Das Weltmodell nutzt Aktions- und visuelle Eingaben, um zukünftige Bildzustände vorherzusagen, und erlernt dabei die zugrundeliegende Physik der Umgebung, um die Aktionsgenerierung zu verfeinern. Umgekehrt erzeugt das VLA-Modell aus Bildbeobachtungen nachfolgende Aktionen, verbessert dadurch das visuelle Verständnis und unterstützt die Bildgenerierung des Weltmodells. Der vereinheitlichte Rahmen von RynnVLA-002 ermöglicht ein gemeinsames Lernen von Umgebungsdynamik und Aktionsplanung. Unsere Experimente zeigen, dass RynnVLA-002 einzelne VLA- und Weltmodelle übertrifft und ihre gegenseitige Verstärkung demonstriert. Wir evaluieren RynnVLA-002 sowohl in Simulations- als auch in realen Robotertasks. RynnVLA-002 erreicht eine Erfolgsrate von 97,4 % auf dem LIBERO-Simulationsbenchmark ohne Vortraining, während in realen LeRobot-Experimenten das integrierte Weltmodell die Gesamterfolgsrate um 50 % steigert.
English
We introduce RynnVLA-002, a unified Vision-Language-Action (VLA) and world model. The world model leverages action and visual inputs to predict future image states, learning the underlying physics of the environment to refine action generation. Conversely, the VLA model produces subsequent actions from image observations, enhancing visual understanding and supporting the world model's image generation. The unified framework of RynnVLA-002 enables joint learning of environmental dynamics and action planning. Our experiments show that RynnVLA-002 surpasses individual VLA and world models, demonstrating their mutual enhancement. We evaluate RynnVLA-002 in both simulation and real-world robot tasks. RynnVLA-002 achieves 97.4% success rate on the LIBERO simulation benchmark without pretraining, while in real-world LeRobot experiments, its integrated world model boosts the overall success rate by 50%.
PDF242December 1, 2025