ChatPaper.aiChatPaper

Genie Envisioner: Una Plataforma Unificada de Base Mundial para la Manipulación Robótica

Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation

August 7, 2025
Autores: Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai, Si Liu, Jianlan Luo, Liliang Chen, Shuicheng Yan, Maoqing Yao, Guanghui Ren
cs.AI

Resumen

Presentamos Genie Envisioner (GE), una plataforma unificada de base mundial para la manipulación robótica que integra el aprendizaje de políticas, la evaluación y la simulación dentro de un marco generativo de video único. En su núcleo, GE-Base es un modelo de difusión de video a gran escala condicionado por instrucciones que captura la dinámica espacial, temporal y semántica de las interacciones robóticas del mundo real en un espacio latente estructurado. Sobre esta base, GE-Act mapea representaciones latentes a trayectorias de acción ejecutables a través de un decodificador ligero de emparejamiento de flujo, permitiendo una inferencia de políticas precisa y generalizable en diversas implementaciones con supervisión mínima. Para apoyar la evaluación y el entrenamiento escalables, GE-Sim funciona como un simulador neuronal condicionado por acciones, produciendo desarrollos de alta fidelidad para el desarrollo de políticas en bucle cerrado. La plataforma está además equipada con EWMBench, un conjunto de benchmarks estandarizados que miden la fidelidad visual, la consistencia física y la alineación entre instrucciones y acciones. Juntos, estos componentes establecen a Genie Envisioner como una base escalable y práctica para la inteligencia encarnada de propósito general impulsada por instrucciones. Todo el código, modelos y benchmarks serán liberados públicamente.
English
We introduce Genie Envisioner (GE), a unified world foundation platform for robotic manipulation that integrates policy learning, evaluation, and simulation within a single video-generative framework. At its core, GE-Base is a large-scale, instruction-conditioned video diffusion model that captures the spatial, temporal, and semantic dynamics of real-world robotic interactions in a structured latent space. Built upon this foundation, GE-Act maps latent representations to executable action trajectories through a lightweight, flow-matching decoder, enabling precise and generalizable policy inference across diverse embodiments with minimal supervision. To support scalable evaluation and training, GE-Sim serves as an action-conditioned neural simulator, producing high-fidelity rollouts for closed-loop policy development. The platform is further equipped with EWMBench, a standardized benchmark suite measuring visual fidelity, physical consistency, and instruction-action alignment. Together, these components establish Genie Envisioner as a scalable and practical foundation for instruction-driven, general-purpose embodied intelligence. All code, models, and benchmarks will be released publicly.
PDF672August 8, 2025