ChatPaper.aiChatPaper

GE-Sim 2.0: Una hoja de ruta hacia simuladores de mundo en video de lazo cerrado integrales para manipulación robótica

GE-Sim 2.0: A Roadmap Towards Comprehensive Closed-loop Video World Simulators for Robotic Manipulation

May 26, 2026
Autores: Boxiang Qiu, Liliang Chen, Yue Liao, Nan Wang, Lintao Wang, Jiayi Luo, Wenzhi Zhao, Shengcong Chen, Di Chen, Ye Li, Chen Gao, Shuicheng Yan, Si Liu, Maoqing Yao, Guanghui Ren
cs.AI

Resumen

Presentamos GE-Sim 2.0 (Genie Envisioner World Simulator 2.0), un simulador de mundo de vídeo en bucle cerrado para manipulación robótica. Basado en el marco de generación de vídeo condicionado por acciones de Genie Envisioner, GE-Sim 2.0 se reentrena con miles de horas de datos robóticos del mundo real que abarcan teleoperación, interacción rica en contacto y despliegue de políticas en el robot, mejorando sustancialmente la fidelidad en el seguimiento de acciones y la cobertura de trayectorias. Sobre esta base, tres nuevos módulos cierran el bucle desde la simulación de vídeo hasta el aprendizaje de políticas: un experto en estado que decodifica el estado propioceptivo a partir de las latencias del vídeo para apoyar la predicción del siguiente fragmento por parte de políticas VLA posteriores; un juez del mundo que puntúa los despliegues generados frente a las instrucciones de la tarea, proporcionando señales de éxito y recompensas verificables por máquina en lugar de inspección manual; y un marco de aceleración que entrega un despliegue de 25 fotogramas en 2.3 segundos en un solo H100, con un salto de hasta 4× fotogramas en inferencia para evaluación de horizonte largo. GE-Sim 2.0 encabeza la tabla de clasificación pública de WorldArena con solo 2 mil millones de parámetros, superando tanto a modelos de mundo robóticos dedicados como a generadores de vídeo generales de código cerrado, y las políticas entrenadas con sus despliegues y recompensas se traducen en mejoras medibles en el mundo real, consolidando a GE-Sim 2.0 como una plataforma práctica para la evaluación escalable y el aprendizaje en bucle cerrado de políticas de manipulación.
English
We introduce GE-Sim 2.0 (Genie Envisioner World Simulator 2.0), a closed-loop video world simulator for robotic manipulation. Building on the action-conditioned video generation framework of Genie Envisioner, GE-Sim 2.0 is re-trained on thousands of hours of real-world robot data spanning teleoperation, contact-rich interaction, and on-robot policy deployment, substantially improving action-following fidelity and trajectory coverage. On top of this foundation, three new modules close the loop from video simulation to policy learning: a state expert that decodes proprioceptive state from video latents to support next-chunk prediction by downstream VLA policies; a world judge that scores generated rollouts against task instructions, yielding machine-verifiable success signals and rewards in place of manual inspection; and an acceleration framework that delivers a 25-frame rollout in 2.3 seconds on a single H100, with up to 4* frame skipping at inference for long-horizon evaluation. GE-Sim 2.0 tops the public WorldArena leaderboard at only 2B parameters, outperforming both dedicated robotic world models and closed-source general video generators, and policies trained against its rollouts and rewards translate into measurable real-world gains, establishing GE-Sim 2.0 as a practical platform for scalable evaluation and closed-loop learning of manipulation policies.