GE-Sim 2.0: ロボット操作のための包括的なクローズドループビデオワールドシミュレータへのロードマップ
GE-Sim 2.0: A Roadmap Towards Comprehensive Closed-loop Video World Simulators for Robotic Manipulation
May 26, 2026
著者: Boxiang Qiu, Liliang Chen, Yue Liao, Nan Wang, Lintao Wang, Jiayi Luo, Wenzhi Zhao, Shengcong Chen, Di Chen, Ye Li, Chen Gao, Shuicheng Yan, Si Liu, Maoqing Yao, Guanghui Ren
cs.AI
要旨
GE-Sim 2.0(Genie Envisioner World Simulator 2.0)を紹介する。これは、ロボット操作のための閉ループ型ビデオワールドシミュレータである。Genie Envisionerの行動条件付きビデオ生成フレームワークを基盤とし、GE-Sim 2.0は、遠隔操作、接触を伴うインタラクション、ロボット上でのポリシー展開にわたる数千時間の実世界ロボットデータで再学習され、行動追従の忠実性と軌跡カバレッジを大幅に改善した。この基盤の上に、ビデオシミュレーションからポリシー学習へのループを閉じる3つの新モジュールを追加する。すなわち、ビデオ潜在表現から固有受容状態を復号し、下流のVLAポリシーによる次チャンク予測を支援する状態エキスパート、生成されたロールアウトをタスク指示に照らしてスコアリングし、手動検査に代わる機械検証可能な成功信号と報酬を提供するワールドジャッジ、そして単一のH100上で2.3秒で25フレームのロールアウトを生成し、長期的評価のために推論時に最大4倍のフレームスキップを可能にする高速化フレームワークである。わずか2Bパラメータで、GE-Sim 2.0は公開のWorldArenaリーダーボードでトップとなり、専用のロボットワールドモデルやクローズドソースの汎用ビデオ生成器を凌駕し、そのロールアウトと報酬に対して訓練されたポリシーは、測定可能な実世界での利得に変換され、GE-Sim 2.0を操作ポリシーのスケーラブルな評価と閉ループ学習のための実用的プラットフォームとして確立する。
English
We introduce GE-Sim 2.0 (Genie Envisioner World Simulator 2.0), a closed-loop video world simulator for robotic manipulation. Building on the action-conditioned video generation framework of Genie Envisioner, GE-Sim 2.0 is re-trained on thousands of hours of real-world robot data spanning teleoperation, contact-rich interaction, and on-robot policy deployment, substantially improving action-following fidelity and trajectory coverage. On top of this foundation, three new modules close the loop from video simulation to policy learning: a state expert that decodes proprioceptive state from video latents to support next-chunk prediction by downstream VLA policies; a world judge that scores generated rollouts against task instructions, yielding machine-verifiable success signals and rewards in place of manual inspection; and an acceleration framework that delivers a 25-frame rollout in 2.3 seconds on a single H100, with up to 4* frame skipping at inference for long-horizon evaluation. GE-Sim 2.0 tops the public WorldArena leaderboard at only 2B parameters, outperforming both dedicated robotic world models and closed-source general video generators, and policies trained against its rollouts and rewards translate into measurable real-world gains, establishing GE-Sim 2.0 as a practical platform for scalable evaluation and closed-loop learning of manipulation policies.