ChatPaper.aiChatPaper

Genie Envisioner: Uma Plataforma Unificada de Fundação Mundial para Manipulação Robótica

Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation

August 7, 2025
Autores: Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai, Si Liu, Jianlan Luo, Liliang Chen, Shuicheng Yan, Maoqing Yao, Guanghui Ren
cs.AI

Resumo

Apresentamos o Genie Envisioner (GE), uma plataforma unificada de base para manipulação robótica que integra aprendizado de políticas, avaliação e simulação em um único framework de geração de vídeo. No seu núcleo, o GE-Base é um modelo de difusão de vídeo em larga escala condicionado por instruções, que captura a dinâmica espacial, temporal e semântica das interações robóticas do mundo real em um espaço latente estruturado. Construído sobre essa base, o GE-Act mapeia representações latentes para trajetórias de ação executáveis por meio de um decodificador leve baseado em correspondência de fluxo, permitindo inferência de políticas precisa e generalizável em diversas configurações com supervisão mínima. Para apoiar avaliação e treinamento escaláveis, o GE-Sim funciona como um simulador neural condicionado por ações, produzindo rollouts de alta fidelidade para o desenvolvimento de políticas em loop fechado. A plataforma é ainda equipada com o EWMBench, um conjunto de benchmarks padronizados que medem fidelidade visual, consistência física e alinhamento instrução-ação. Juntos, esses componentes estabelecem o Genie Envisioner como uma base escalável e prática para inteligência incorporada de propósito geral orientada por instruções. Todo o código, modelos e benchmarks serão liberados publicamente.
English
We introduce Genie Envisioner (GE), a unified world foundation platform for robotic manipulation that integrates policy learning, evaluation, and simulation within a single video-generative framework. At its core, GE-Base is a large-scale, instruction-conditioned video diffusion model that captures the spatial, temporal, and semantic dynamics of real-world robotic interactions in a structured latent space. Built upon this foundation, GE-Act maps latent representations to executable action trajectories through a lightweight, flow-matching decoder, enabling precise and generalizable policy inference across diverse embodiments with minimal supervision. To support scalable evaluation and training, GE-Sim serves as an action-conditioned neural simulator, producing high-fidelity rollouts for closed-loop policy development. The platform is further equipped with EWMBench, a standardized benchmark suite measuring visual fidelity, physical consistency, and instruction-action alignment. Together, these components establish Genie Envisioner as a scalable and practical foundation for instruction-driven, general-purpose embodied intelligence. All code, models, and benchmarks will be released publicly.
PDF732August 8, 2025