ChatPaper.aiChatPaper

GE-Sim 2.0: Ein Fahrplan zu umfassenden Closed-Loop-Videowelt-Simulatoren für die Robotermanipulation

GE-Sim 2.0: A Roadmap Towards Comprehensive Closed-loop Video World Simulators for Robotic Manipulation

May 26, 2026
Autoren: Boxiang Qiu, Liliang Chen, Yue Liao, Nan Wang, Lintao Wang, Jiayi Luo, Wenzhi Zhao, Shengcong Chen, Di Chen, Ye Li, Chen Gao, Shuicheng Yan, Si Liu, Maoqing Yao, Guanghui Ren
cs.AI

Zusammenfassung

Wir stellen GE-Sim 2.0 (Genie Envisioner World Simulator 2.0) vor, einen geschlossenen Video-Welt-Simulator für robotische Manipulation. Aufbauend auf dem aktionskonditionierten Videogenerierungs-Framework von Genie Envisioner wird GE-Sim 2.0 auf Tausenden von Stunden realer Roboterdaten neu trainiert, die Teleoperation, kontaktreiche Interaktion und On-Robot-Policy-Einsatz umfassen, wodurch die Aktionsbefolgungsgenauigkeit und die Trajektorienabdeckung erheblich verbessert werden. Darauf aufbauend schließen drei neue Module den Kreislauf von der Videosimulation zum Policy-Lernen: ein State-Expert, der propriozeptive Zustände aus Video-Latents dekodiert, um die Next-Chunk-Vorhersage durch nachgelagerte VLA-Policies zu unterstützen; ein World Judge, der generierte Rollouts anhand von Aufgabenanweisungen bewertet und maschinenverifizierbare Erfolgssignale und Belohnungen anstelle manueller Inspektion liefert; und ein Beschleunigungsframework, das einen 25-Frame-Rollout in 2,3 Sekunden auf einer einzelnen H100 ausführt, mit bis zu 4-fachem Frame-Skipping bei der Inferenz für die Langzeitbewertung. GE-Sim 2.0 führt die öffentliche WorldArena-Rangliste mit nur 2B Parametern an und übertrifft sowohl spezialisierte robotische Weltmodelle als auch quellgeschlossene allgemeine Videogeneratoren. Policies, die mit seinen Rollouts und Belohnungen trainiert wurden, führen zu messbaren realen Verbesserungen und etablieren GE-Sim 2.0 als praktische Plattform für skalierbare Evaluierung und geschlossenes Lernen von Manipulationsrichtlinien.
English
We introduce GE-Sim 2.0 (Genie Envisioner World Simulator 2.0), a closed-loop video world simulator for robotic manipulation. Building on the action-conditioned video generation framework of Genie Envisioner, GE-Sim 2.0 is re-trained on thousands of hours of real-world robot data spanning teleoperation, contact-rich interaction, and on-robot policy deployment, substantially improving action-following fidelity and trajectory coverage. On top of this foundation, three new modules close the loop from video simulation to policy learning: a state expert that decodes proprioceptive state from video latents to support next-chunk prediction by downstream VLA policies; a world judge that scores generated rollouts against task instructions, yielding machine-verifiable success signals and rewards in place of manual inspection; and an acceleration framework that delivers a 25-frame rollout in 2.3 seconds on a single H100, with up to 4* frame skipping at inference for long-horizon evaluation. GE-Sim 2.0 tops the public WorldArena leaderboard at only 2B parameters, outperforming both dedicated robotic world models and closed-source general video generators, and policies trained against its rollouts and rewards translate into measurable real-world gains, establishing GE-Sim 2.0 as a practical platform for scalable evaluation and closed-loop learning of manipulation policies.