Genie Envisioner: Een Geïntegreerd Wereldbasisplatform voor Robotmanipulatie
Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation
August 7, 2025
Auteurs: Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai, Si Liu, Jianlan Luo, Liliang Chen, Shuicheng Yan, Maoqing Yao, Guanghui Ren
cs.AI
Samenvatting
We introduceren Genie Envisioner (GE), een geïntegreerd wereldplatform voor robotmanipulatie dat beleidsleren, evaluatie en simulatie combineert binnen een enkel video-generatief raamwerk. De kern van GE-Base is een grootschalig, instructie-geconditioneerd videodiffusiemodel dat de ruimtelijke, temporele en semantische dynamiek van real-world robotinteracties vastlegt in een gestructureerde latente ruimte. Gebouwd op deze basis, vertaalt GE-Act latente representaties naar uitvoerbare actietrajecten via een lichtgewicht, flow-matching decoder, wat precieze en generaliseerbare beleidsinferentie mogelijk maakt over diverse embodimenten met minimale supervisie. Om schaalbare evaluatie en training te ondersteunen, fungeert GE-Sim als een actie-geconditioneerde neurale simulator, die hoogwaardige rollouts produceert voor gesloten-lus beleidsontwikkeling. Het platform is verder uitgerust met EWMBench, een gestandaardiseerde benchmarksuite die visuele kwaliteit, fysieke consistentie en instructie-actie-alignment meet. Samen vormen deze componenten Genie Envisioner als een schaalbaar en praktisch fundament voor instructie-gedreven, algemeen-toepasbare embodied intelligentie. Alle code, modellen en benchmarks zullen openbaar worden vrijgegeven.
English
We introduce Genie Envisioner (GE), a unified world foundation platform for
robotic manipulation that integrates policy learning, evaluation, and
simulation within a single video-generative framework. At its core, GE-Base is
a large-scale, instruction-conditioned video diffusion model that captures the
spatial, temporal, and semantic dynamics of real-world robotic interactions in
a structured latent space. Built upon this foundation, GE-Act maps latent
representations to executable action trajectories through a lightweight,
flow-matching decoder, enabling precise and generalizable policy inference
across diverse embodiments with minimal supervision. To support scalable
evaluation and training, GE-Sim serves as an action-conditioned neural
simulator, producing high-fidelity rollouts for closed-loop policy development.
The platform is further equipped with EWMBench, a standardized benchmark suite
measuring visual fidelity, physical consistency, and instruction-action
alignment. Together, these components establish Genie Envisioner as a scalable
and practical foundation for instruction-driven, general-purpose embodied
intelligence. All code, models, and benchmarks will be released publicly.