GE-Sim 2.0: 로봇 조작을 위한 포괄적인 폐루프 비디오 월드 시뮬레이터를 향한 로드맵
GE-Sim 2.0: A Roadmap Towards Comprehensive Closed-loop Video World Simulators for Robotic Manipulation
May 26, 2026
저자: Boxiang Qiu, Liliang Chen, Yue Liao, Nan Wang, Lintao Wang, Jiayi Luo, Wenzhi Zhao, Shengcong Chen, Di Chen, Ye Li, Chen Gao, Shuicheng Yan, Si Liu, Maoqing Yao, Guanghui Ren
cs.AI
초록
우리는 GE-Sim 2.0(Genie Envisioner World Simulator 2.0)을 소개한다. 이는 로봇 조작을 위한 폐루프 비디오 월드 시뮬레이터이다. GE-Sim 2.0은 Genie Envisioner의 액션 조건부 비디오 생성 프레임워크를 기반으로, 원격 조작, 접촉이 풍부한 상호작용, 온-로봇 정책 배치를 아우르는 수천 시간 분량의 실제 로봇 데이터로 재학습되어, 액션 추종 정확도와 궤적 커버리지를 크게 향상시켰다. 이러한 기반 위에 세 가지 새로운 모듈이 비디오 시뮬레이션에서 정책 학습으로의 폐루프를 완성한다: 비디오 잠재 변수에서 고유수용성 상태를 디코딩하여 하위 VLA 정책의 다음 청크 예측을 지원하는 상태 전문가(state expert); 생성된 롤아웃을 작업 명령어에 대해 평가하여 수동 검사 대신 기계 검증 가능한 성공 신호와 보상을 제공하는 월드 심판(world judge); 단일 H100에서 2.3초 만에 25프레임 롤아웃을 생성하고 추론 시 최대 4배 프레임 스킵으로 장기 평가를 가능하게 하는 가속 프레임워크. GE-Sim 2.0은 단 2B 파라미터로 공개 WorldArena 리더보드 1위를 차지하며, 전용 로봇 월드 모델과 폐쇄형 일반 비디오 생성기를 모두 능가하고, 그 롤아웃과 보상에 대해 훈련된 정책이 실제 환경에서 측정 가능한 성과 향상으로 이어져, GE-Sim 2.0이 조작 정책의 확장 가능한 평가와 폐루프 학습을 위한 실용적인 플랫폼임을 입증한다.
English
We introduce GE-Sim 2.0 (Genie Envisioner World Simulator 2.0), a closed-loop video world simulator for robotic manipulation. Building on the action-conditioned video generation framework of Genie Envisioner, GE-Sim 2.0 is re-trained on thousands of hours of real-world robot data spanning teleoperation, contact-rich interaction, and on-robot policy deployment, substantially improving action-following fidelity and trajectory coverage. On top of this foundation, three new modules close the loop from video simulation to policy learning: a state expert that decodes proprioceptive state from video latents to support next-chunk prediction by downstream VLA policies; a world judge that scores generated rollouts against task instructions, yielding machine-verifiable success signals and rewards in place of manual inspection; and an acceleration framework that delivers a 25-frame rollout in 2.3 seconds on a single H100, with up to 4* frame skipping at inference for long-horizon evaluation. GE-Sim 2.0 tops the public WorldArena leaderboard at only 2B parameters, outperforming both dedicated robotic world models and closed-source general video generators, and policies trained against its rollouts and rewards translate into measurable real-world gains, establishing GE-Sim 2.0 as a practical platform for scalable evaluation and closed-loop learning of manipulation policies.