Genie Envisioner: Una Piattaforma Unificata di Base per la Manipolazione Robotica

Abstract

Introduciamo Genie Envisioner (GE), una piattaforma unificata di base per la manipolazione robotica che integra l'apprendimento delle politiche, la valutazione e la simulazione all'interno di un unico framework generativo di video. Al suo nucleo, GE-Base è un modello di diffusione video su larga scala condizionato da istruzioni, che cattura le dinamiche spaziali, temporali e semantiche delle interazioni robotiche nel mondo reale in uno spazio latente strutturato. Costruito su questa base, GE-Act mappa le rappresentazioni latenti a traiettorie di azioni eseguibili attraverso un decoder leggero basato su flussi, consentendo un'inferenza precisa e generalizzabile delle politiche attraverso diverse incarnazioni con una supervisione minima. Per supportare valutazioni e addestramenti scalabili, GE-Sim funge da simulatore neurale condizionato dalle azioni, producendo rollout ad alta fedeltà per lo sviluppo di politiche a ciclo chiuso. La piattaforma è ulteriormente dotata di EWMBench, una suite di benchmark standardizzata che misura la fedeltà visiva, la consistenza fisica e l'allineamento istruzione-azione. Insieme, questi componenti stabiliscono Genie Envisioner come una base scalabile e pratica per l'intelligenza incarnata guidata da istruzioni e di scopo generale. Tutti i codici, i modelli e i benchmark saranno rilasciati pubblicamente.

English

We introduce Genie Envisioner (GE), a unified world foundation platform for robotic manipulation that integrates policy learning, evaluation, and simulation within a single video-generative framework. At its core, GE-Base is a large-scale, instruction-conditioned video diffusion model that captures the spatial, temporal, and semantic dynamics of real-world robotic interactions in a structured latent space. Built upon this foundation, GE-Act maps latent representations to executable action trajectories through a lightweight, flow-matching decoder, enabling precise and generalizable policy inference across diverse embodiments with minimal supervision. To support scalable evaluation and training, GE-Sim serves as an action-conditioned neural simulator, producing high-fidelity rollouts for closed-loop policy development. The platform is further equipped with EWMBench, a standardized benchmark suite measuring visual fidelity, physical consistency, and instruction-action alignment. Together, these components establish Genie Envisioner as a scalable and practical foundation for instruction-driven, general-purpose embodied intelligence. All code, models, and benchmarks will be released publicly.

Genie Envisioner: Una Piattaforma Unificata di Base per la Manipolazione Robotica

Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation

Abstract

Support