ChatPaper.aiChatPaper

Genie Envisioner: Una Piattaforma Unificata di Base per la Manipolazione Robotica

Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation

August 7, 2025
Autori: Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai, Si Liu, Jianlan Luo, Liliang Chen, Shuicheng Yan, Maoqing Yao, Guanghui Ren
cs.AI

Abstract

Introduciamo Genie Envisioner (GE), una piattaforma unificata di base per la manipolazione robotica che integra l'apprendimento delle politiche, la valutazione e la simulazione all'interno di un unico framework generativo di video. Al suo nucleo, GE-Base è un modello di diffusione video su larga scala condizionato da istruzioni, che cattura le dinamiche spaziali, temporali e semantiche delle interazioni robotiche nel mondo reale in uno spazio latente strutturato. Costruito su questa base, GE-Act mappa le rappresentazioni latenti a traiettorie di azioni eseguibili attraverso un decoder leggero basato su flussi, consentendo un'inferenza precisa e generalizzabile delle politiche attraverso diverse incarnazioni con una supervisione minima. Per supportare valutazioni e addestramenti scalabili, GE-Sim funge da simulatore neurale condizionato dalle azioni, producendo rollout ad alta fedeltà per lo sviluppo di politiche a ciclo chiuso. La piattaforma è ulteriormente dotata di EWMBench, una suite di benchmark standardizzata che misura la fedeltà visiva, la consistenza fisica e l'allineamento istruzione-azione. Insieme, questi componenti stabiliscono Genie Envisioner come una base scalabile e pratica per l'intelligenza incarnata guidata da istruzioni e di scopo generale. Tutti i codici, i modelli e i benchmark saranno rilasciati pubblicamente.
English
We introduce Genie Envisioner (GE), a unified world foundation platform for robotic manipulation that integrates policy learning, evaluation, and simulation within a single video-generative framework. At its core, GE-Base is a large-scale, instruction-conditioned video diffusion model that captures the spatial, temporal, and semantic dynamics of real-world robotic interactions in a structured latent space. Built upon this foundation, GE-Act maps latent representations to executable action trajectories through a lightweight, flow-matching decoder, enabling precise and generalizable policy inference across diverse embodiments with minimal supervision. To support scalable evaluation and training, GE-Sim serves as an action-conditioned neural simulator, producing high-fidelity rollouts for closed-loop policy development. The platform is further equipped with EWMBench, a standardized benchmark suite measuring visual fidelity, physical consistency, and instruction-action alignment. Together, these components establish Genie Envisioner as a scalable and practical foundation for instruction-driven, general-purpose embodied intelligence. All code, models, and benchmarks will be released publicly.
PDF732August 8, 2025