Genie Envisioner : Une plateforme unifiée de fondation mondiale pour la manipulation robotique
Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation
August 7, 2025
papers.authors: Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai, Si Liu, Jianlan Luo, Liliang Chen, Shuicheng Yan, Maoqing Yao, Guanghui Ren
cs.AI
papers.abstract
Nous présentons Genie Envisioner (GE), une plateforme unifiée de fondation mondiale pour la manipulation robotique qui intègre l'apprentissage de politiques, l'évaluation et la simulation au sein d'un cadre unique de génération vidéo. Au cœur de GE se trouve GE-Base, un modèle de diffusion vidéo à grande échelle conditionné par des instructions, qui capture les dynamiques spatiales, temporelles et sémantiques des interactions robotiques du monde réel dans un espace latent structuré. Construit sur cette base, GE-Act cartographie les représentations latentes vers des trajectoires d'actions exécutables grâce à un décodeur léger basé sur le flux, permettant une inférence de politique précise et généralisable à travers diverses incarnations avec un minimum de supervision. Pour soutenir une évaluation et un entraînement évolutifs, GE-Sim sert de simulateur neuronal conditionné par les actions, produisant des déploiements haute fidélité pour le développement de politiques en boucle fermée. La plateforme est en outre équipée d'EWMBench, une suite de benchmarks standardisés mesurant la fidélité visuelle, la cohérence physique et l'alignement instruction-action. Ensemble, ces composants établissent Genie Envisioner comme une fondation évolutive et pratique pour l'intelligence incarnée à usage général pilotée par des instructions. Tous les codes, modèles et benchmarks seront rendus publics.
English
We introduce Genie Envisioner (GE), a unified world foundation platform for
robotic manipulation that integrates policy learning, evaluation, and
simulation within a single video-generative framework. At its core, GE-Base is
a large-scale, instruction-conditioned video diffusion model that captures the
spatial, temporal, and semantic dynamics of real-world robotic interactions in
a structured latent space. Built upon this foundation, GE-Act maps latent
representations to executable action trajectories through a lightweight,
flow-matching decoder, enabling precise and generalizable policy inference
across diverse embodiments with minimal supervision. To support scalable
evaluation and training, GE-Sim serves as an action-conditioned neural
simulator, producing high-fidelity rollouts for closed-loop policy development.
The platform is further equipped with EWMBench, a standardized benchmark suite
measuring visual fidelity, physical consistency, and instruction-action
alignment. Together, these components establish Genie Envisioner as a scalable
and practical foundation for instruction-driven, general-purpose embodied
intelligence. All code, models, and benchmarks will be released publicly.