Genie Envisioner: Una Plataforma Unificada de Base Mundial para la Manipulación Robótica
Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation
August 7, 2025
Autores: Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai, Si Liu, Jianlan Luo, Liliang Chen, Shuicheng Yan, Maoqing Yao, Guanghui Ren
cs.AI
Resumen
Presentamos Genie Envisioner (GE), una plataforma unificada de base mundial para la manipulación robótica que integra el aprendizaje de políticas, la evaluación y la simulación dentro de un marco generativo de video único. En su núcleo, GE-Base es un modelo de difusión de video a gran escala condicionado por instrucciones que captura la dinámica espacial, temporal y semántica de las interacciones robóticas del mundo real en un espacio latente estructurado. Sobre esta base, GE-Act mapea representaciones latentes a trayectorias de acción ejecutables a través de un decodificador ligero de emparejamiento de flujo, permitiendo una inferencia de políticas precisa y generalizable en diversas implementaciones con supervisión mínima. Para apoyar la evaluación y el entrenamiento escalables, GE-Sim funciona como un simulador neuronal condicionado por acciones, produciendo desarrollos de alta fidelidad para el desarrollo de políticas en bucle cerrado. La plataforma está además equipada con EWMBench, un conjunto de benchmarks estandarizados que miden la fidelidad visual, la consistencia física y la alineación entre instrucciones y acciones. Juntos, estos componentes establecen a Genie Envisioner como una base escalable y práctica para la inteligencia encarnada de propósito general impulsada por instrucciones. Todo el código, modelos y benchmarks serán liberados públicamente.
English
We introduce Genie Envisioner (GE), a unified world foundation platform for
robotic manipulation that integrates policy learning, evaluation, and
simulation within a single video-generative framework. At its core, GE-Base is
a large-scale, instruction-conditioned video diffusion model that captures the
spatial, temporal, and semantic dynamics of real-world robotic interactions in
a structured latent space. Built upon this foundation, GE-Act maps latent
representations to executable action trajectories through a lightweight,
flow-matching decoder, enabling precise and generalizable policy inference
across diverse embodiments with minimal supervision. To support scalable
evaluation and training, GE-Sim serves as an action-conditioned neural
simulator, producing high-fidelity rollouts for closed-loop policy development.
The platform is further equipped with EWMBench, a standardized benchmark suite
measuring visual fidelity, physical consistency, and instruction-action
alignment. Together, these components establish Genie Envisioner as a scalable
and practical foundation for instruction-driven, general-purpose embodied
intelligence. All code, models, and benchmarks will be released publicly.