Genie Envisioner: Una Piattaforma Unificata di Base per la Manipolazione Robotica
Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation
August 7, 2025
Autori: Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai, Si Liu, Jianlan Luo, Liliang Chen, Shuicheng Yan, Maoqing Yao, Guanghui Ren
cs.AI
Abstract
Introduciamo Genie Envisioner (GE), una piattaforma unificata di base per la manipolazione robotica che integra l'apprendimento delle politiche, la valutazione e la simulazione all'interno di un unico framework generativo di video. Al suo nucleo, GE-Base è un modello di diffusione video su larga scala condizionato da istruzioni, che cattura le dinamiche spaziali, temporali e semantiche delle interazioni robotiche nel mondo reale in uno spazio latente strutturato. Costruito su questa base, GE-Act mappa le rappresentazioni latenti a traiettorie di azioni eseguibili attraverso un decoder leggero basato su flussi, consentendo un'inferenza precisa e generalizzabile delle politiche attraverso diverse incarnazioni con una supervisione minima. Per supportare valutazioni e addestramenti scalabili, GE-Sim funge da simulatore neurale condizionato dalle azioni, producendo rollout ad alta fedeltà per lo sviluppo di politiche a ciclo chiuso. La piattaforma è ulteriormente dotata di EWMBench, una suite di benchmark standardizzata che misura la fedeltà visiva, la consistenza fisica e l'allineamento istruzione-azione. Insieme, questi componenti stabiliscono Genie Envisioner come una base scalabile e pratica per l'intelligenza incarnata guidata da istruzioni e di scopo generale. Tutti i codici, i modelli e i benchmark saranno rilasciati pubblicamente.
English
We introduce Genie Envisioner (GE), a unified world foundation platform for
robotic manipulation that integrates policy learning, evaluation, and
simulation within a single video-generative framework. At its core, GE-Base is
a large-scale, instruction-conditioned video diffusion model that captures the
spatial, temporal, and semantic dynamics of real-world robotic interactions in
a structured latent space. Built upon this foundation, GE-Act maps latent
representations to executable action trajectories through a lightweight,
flow-matching decoder, enabling precise and generalizable policy inference
across diverse embodiments with minimal supervision. To support scalable
evaluation and training, GE-Sim serves as an action-conditioned neural
simulator, producing high-fidelity rollouts for closed-loop policy development.
The platform is further equipped with EWMBench, a standardized benchmark suite
measuring visual fidelity, physical consistency, and instruction-action
alignment. Together, these components establish Genie Envisioner as a scalable
and practical foundation for instruction-driven, general-purpose embodied
intelligence. All code, models, and benchmarks will be released publicly.