GE-Sim 2.0: Дорожная карта к созданию комплексных замкнутых симуляторов видеомира для роботизированного манипулирования
GE-Sim 2.0: A Roadmap Towards Comprehensive Closed-loop Video World Simulators for Robotic Manipulation
May 26, 2026
Авторы: Boxiang Qiu, Liliang Chen, Yue Liao, Nan Wang, Lintao Wang, Jiayi Luo, Wenzhi Zhao, Shengcong Chen, Di Chen, Ye Li, Chen Gao, Shuicheng Yan, Si Liu, Maoqing Yao, Guanghui Ren
cs.AI
Аннотация
Мы представляем GE-Sim 2.0 (Genie Envisioner World Simulator 2.0) — симулятор видеомира с обратной связью для роботизированных манипуляций. Построенный на основе обусловленного действиями создания видеокадров в Genie Envisioner, GE-Sim 2.0 заново обучен на тысячах часов реальных роботизированных данных, включающих телеуправление, контактное взаимодействие и развертывание политик на роботе, что значительно повышает точность следования действиям и покрытие траекторий. На этой основе три новых модуля замыкают цикл от видеосимуляции до обучения политик: эксперт по состояниям, который декодирует проприоцептивное состояние из скрытых представлений видео для поддержки прогнозирования следующего блока нижестоящими VLA-политиками; мировой судья, который оценивает сгенерированные прогоны на соответствие инструкциям задачи, выдавая машинно-верифицируемые сигналы успеха и вознаграждения вместо ручной проверки; и механизм ускорения, обеспечивающий прогон из 25 кадров за 2,3 секунды на одном H100, с возможностью пропуска до 4 кадров при выводе для оценки на длинных горизонтах. GE-Sim 2.0 занимает первое место в публичном рейтинге WorldArena всего с 2 миллиардами параметров, превосходя как специализированные роботизированные мировые модели, так и закрытые генераторы общего видео, а политики, обученные на его прогонах и вознаграждениях, демонстрируют измеримые реальные улучшения, что утверждает GE-Sim 2.0 в качестве практичной платформы для масштабируемой оценки и обучения с замкнутым циклом политик манипуляций.
English
We introduce GE-Sim 2.0 (Genie Envisioner World Simulator 2.0), a closed-loop video world simulator for robotic manipulation. Building on the action-conditioned video generation framework of Genie Envisioner, GE-Sim 2.0 is re-trained on thousands of hours of real-world robot data spanning teleoperation, contact-rich interaction, and on-robot policy deployment, substantially improving action-following fidelity and trajectory coverage. On top of this foundation, three new modules close the loop from video simulation to policy learning: a state expert that decodes proprioceptive state from video latents to support next-chunk prediction by downstream VLA policies; a world judge that scores generated rollouts against task instructions, yielding machine-verifiable success signals and rewards in place of manual inspection; and an acceleration framework that delivers a 25-frame rollout in 2.3 seconds on a single H100, with up to 4* frame skipping at inference for long-horizon evaluation. GE-Sim 2.0 tops the public WorldArena leaderboard at only 2B parameters, outperforming both dedicated robotic world models and closed-source general video generators, and policies trained against its rollouts and rewards translate into measurable real-world gains, establishing GE-Sim 2.0 as a practical platform for scalable evaluation and closed-loop learning of manipulation policies.