ChatPaper.aiChatPaper

GE-Sim 2.0: Um Roteiro para Simuladores de Mundo em Vídeo de Malha Fechada e Abrangentes para Manipulação Robótica

GE-Sim 2.0: A Roadmap Towards Comprehensive Closed-loop Video World Simulators for Robotic Manipulation

May 26, 2026
Autores: Boxiang Qiu, Liliang Chen, Yue Liao, Nan Wang, Lintao Wang, Jiayi Luo, Wenzhi Zhao, Shengcong Chen, Di Chen, Ye Li, Chen Gao, Shuicheng Yan, Si Liu, Maoqing Yao, Guanghui Ren
cs.AI

Resumo

Apresentamos o GE-Sim 2.0 (Genie Envisioner World Simulator 2.0), um simulador de mundo de vídeo em malha fechada para manipulação robótica. Baseado na estrutura de geração de vídeo condicionada por ações do Genie Envisioner, o GE-Sim 2.0 é retreinado em milhares de horas de dados robóticos reais, abrangendo teleoperação, interação com contato rico e implantação de políticas no robô, melhorando substancialmente a fidelidade de seguimento de ações e a cobertura de trajetórias. Sobre essa base, três novos módulos fecham o ciclo da simulação de vídeo para o aprendizado de políticas: um especialista de estado que decodifica o estado proprioceptivo a partir de latentes de vídeo para suportar a previsão de próximos blocos por políticas VLA downstream; um juiz de mundo que avalia as sequências geradas em relação às instruções de tarefa, fornecendo sinais de sucesso e recompensas verificáveis por máquina em substituição à inspeção manual; e uma estrutura de aceleração que gera 25 quadros em 2,3 segundos em uma única H100, com pulo de até 4× quadros na inferência para avaliação de horizonte longo. O GE-Sim 2.0 lidera o ranking público do WorldArena com apenas 2 bilhões de parâmetros, superando tanto modelos de mundo robóticos dedicados quanto geradores de vídeo gerais de código fechado, e as políticas treinadas com suas sequências e recompensas se traduzem em ganhos mensuráveis no mundo real, estabelecendo o GE-Sim 2.0 como uma plataforma prática para avaliação escalável e aprendizado em malha fechada de políticas de manipulação.
English
We introduce GE-Sim 2.0 (Genie Envisioner World Simulator 2.0), a closed-loop video world simulator for robotic manipulation. Building on the action-conditioned video generation framework of Genie Envisioner, GE-Sim 2.0 is re-trained on thousands of hours of real-world robot data spanning teleoperation, contact-rich interaction, and on-robot policy deployment, substantially improving action-following fidelity and trajectory coverage. On top of this foundation, three new modules close the loop from video simulation to policy learning: a state expert that decodes proprioceptive state from video latents to support next-chunk prediction by downstream VLA policies; a world judge that scores generated rollouts against task instructions, yielding machine-verifiable success signals and rewards in place of manual inspection; and an acceleration framework that delivers a 25-frame rollout in 2.3 seconds on a single H100, with up to 4* frame skipping at inference for long-horizon evaluation. GE-Sim 2.0 tops the public WorldArena leaderboard at only 2B parameters, outperforming both dedicated robotic world models and closed-source general video generators, and policies trained against its rollouts and rewards translate into measurable real-world gains, establishing GE-Sim 2.0 as a practical platform for scalable evaluation and closed-loop learning of manipulation policies.