ChatPaper.aiChatPaper

GE-Sim 2.0 : Une feuille de route vers des simulateurs de mondes vidéo en boucle fermée complets pour la manipulation robotique

GE-Sim 2.0: A Roadmap Towards Comprehensive Closed-loop Video World Simulators for Robotic Manipulation

May 26, 2026
Auteurs: Boxiang Qiu, Liliang Chen, Yue Liao, Nan Wang, Lintao Wang, Jiayi Luo, Wenzhi Zhao, Shengcong Chen, Di Chen, Ye Li, Chen Gao, Shuicheng Yan, Si Liu, Maoqing Yao, Guanghui Ren
cs.AI

Résumé

Nous présentons GE‑Sim 2.0 (Genie Envisioner World Simulator 2.0), un simulateur vidéo en boucle fermée pour la manipulation robotique. Bâti sur le cadre de génération vidéo conditionnée par l’action de Genie Envisioner, GE‑Sim 2.0 est ré-entraîné sur des milliers d’heures de données robotiques réelles couvrant la téléopération, les interactions riches en contact et le déploiement de politiques embarquées, améliorant ainsi considérablement la fidélité au suivi des actions et la couverture des trajectoires. Sur cette base, trois nouveaux modules bouclent la boucle allant de la simulation vidéo à l’apprentissage de politiques : un expert d’état qui décode l’état proprioceptif à partir des latences vidéo pour soutenir la prédiction par segments des politiques VLA aval ; un juge du monde qui note les déploiements générés par rapport aux instructions de la tâche, fournissant des signaux de succès et des récompenses vérifiables par machine en lieu et place d’une inspection manuelle ; et un cadre d’accélération qui produit un déploiement de 25 images en 2,3 secondes sur un seul H100, avec jusqu’à 4× de saut d’images lors de l’inférence pour une évaluation à long horizon. GE‑Sim 2.0 domine le classement public WorldArena avec seulement 2 milliards de paramètres, surpassant à la fois les modèles dédiés du monde robotique et les générateurs vidéo généraux en source fermée, et les politiques entraînées sur ses déploiements et récompenses se traduisent par des gains réels mesurables, faisant de GE‑Sim 2.0 une plateforme pratique pour l’évaluation à grande échelle et l’apprentissage en boucle fermée des politiques de manipulation.
English
We introduce GE-Sim 2.0 (Genie Envisioner World Simulator 2.0), a closed-loop video world simulator for robotic manipulation. Building on the action-conditioned video generation framework of Genie Envisioner, GE-Sim 2.0 is re-trained on thousands of hours of real-world robot data spanning teleoperation, contact-rich interaction, and on-robot policy deployment, substantially improving action-following fidelity and trajectory coverage. On top of this foundation, three new modules close the loop from video simulation to policy learning: a state expert that decodes proprioceptive state from video latents to support next-chunk prediction by downstream VLA policies; a world judge that scores generated rollouts against task instructions, yielding machine-verifiable success signals and rewards in place of manual inspection; and an acceleration framework that delivers a 25-frame rollout in 2.3 seconds on a single H100, with up to 4* frame skipping at inference for long-horizon evaluation. GE-Sim 2.0 tops the public WorldArena leaderboard at only 2B parameters, outperforming both dedicated robotic world models and closed-source general video generators, and policies trained against its rollouts and rewards translate into measurable real-world gains, establishing GE-Sim 2.0 as a practical platform for scalable evaluation and closed-loop learning of manipulation policies.