GE-Sim 2.0: Een routekaart naar alomvattende gesloten-lus videowereldsimulatoren voor robotmanipulatie
GE-Sim 2.0: A Roadmap Towards Comprehensive Closed-loop Video World Simulators for Robotic Manipulation
May 26, 2026
Auteurs: Boxiang Qiu, Liliang Chen, Yue Liao, Nan Wang, Lintao Wang, Jiayi Luo, Wenzhi Zhao, Shengcong Chen, Di Chen, Ye Li, Chen Gao, Shuicheng Yan, Si Liu, Maoqing Yao, Guanghui Ren
cs.AI
Samenvatting
Wij introduceren GE-Sim 2.0 (Genie Envisioner World Simulator 2.0), een gesloten-lus videowereldsimulator voor robotmanipulatie. Voortbouwend op het actie-geconditioneerde video-generatiekader van Genie Envisioner, is GE-Sim 2.0 opnieuw getraind op duizenden uren aan echte robotgegevens, variërend van teleoperatie, contactrijke interactie en implementatie van robotbeleid, waardoor de actievolgnauwkeurigheid en trajectdekking aanzienlijk zijn verbeterd. Bovenop deze basis sluiten drie nieuwe modules de lus van videosimulatie naar beleidsleren: een toestandsexpert die proprioceptieve toestand decodeert uit videolaters om de voorspelling van het volgende blok door stroomafwaartse VLA-beleid te ondersteunen; een wereldrechter die gegenereerde rollouts beoordeelt op basis van taakinstructies, wat machine-verifieerbare succesindicatoren en beloningen oplevert in plaats van handmatige inspectie; en een versnellingskader dat een 25-frame rollout in 2,3 seconden op een enkele H100 levert, met tot 4× frames overslaan bij inferentie voor evaluatie op lange termijn. GE-Sim 2.0 staat bovenaan de openbare WorldArena-ranglijst met slechts 2B parameters, presteert beter dan zowel speciale robotwereldmodellen als closed-source algemene videogeneratoren, en beleid dat is getraind op basis van zijn rollouts en beloningen vertaalt zich in meetbare echte winst, waarmee GE-Sim 2.0 wordt gevestigd als een praktisch platform voor schaalbare evaluatie en gesloten-lus leren van manipulatiebeleid.
English
We introduce GE-Sim 2.0 (Genie Envisioner World Simulator 2.0), a closed-loop video world simulator for robotic manipulation. Building on the action-conditioned video generation framework of Genie Envisioner, GE-Sim 2.0 is re-trained on thousands of hours of real-world robot data spanning teleoperation, contact-rich interaction, and on-robot policy deployment, substantially improving action-following fidelity and trajectory coverage. On top of this foundation, three new modules close the loop from video simulation to policy learning: a state expert that decodes proprioceptive state from video latents to support next-chunk prediction by downstream VLA policies; a world judge that scores generated rollouts against task instructions, yielding machine-verifiable success signals and rewards in place of manual inspection; and an acceleration framework that delivers a 25-frame rollout in 2.3 seconds on a single H100, with up to 4* frame skipping at inference for long-horizon evaluation. GE-Sim 2.0 tops the public WorldArena leaderboard at only 2B parameters, outperforming both dedicated robotic world models and closed-source general video generators, and policies trained against its rollouts and rewards translate into measurable real-world gains, establishing GE-Sim 2.0 as a practical platform for scalable evaluation and closed-loop learning of manipulation policies.