ジェニー・エンビジョナー:ロボット操作のための統一世界基盤プラットフォーム
Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation
August 7, 2025
著者: Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai, Si Liu, Jianlan Luo, Liliang Chen, Shuicheng Yan, Maoqing Yao, Guanghui Ren
cs.AI
要旨
我々は、ロボット操作のための統一的な世界基盤プラットフォームであるGenie Envisioner (GE)を紹介する。GEは、ポリシー学習、評価、シミュレーションを単一のビデオ生成フレームワーク内に統合する。その中核となるGE-Baseは、大規模な指示条件付きビデオ拡散モデルであり、現実世界のロボット相互作用の空間的、時間的、意味的ダイナミクスを構造化された潜在空間で捉える。この基盤の上に構築されたGE-Actは、軽量なフローマッチングデコーダを通じて潜在表現を実行可能なアクション軌道にマッピングし、最小限の監督で多様なエンボディメントにわたる正確で汎用的なポリシー推論を可能にする。スケーラブルな評価とトレーニングを支援するため、GE-Simはアクション条件付きニューラルシミュレータとして機能し、閉ループポリシー開発のための高忠実度ロールアウトを生成する。さらに、このプラットフォームは、視覚的忠実度、物理的一貫性、指示-アクションの整合性を測定する標準化されたベンチマークスイートであるEWMBenchを備えている。これらのコンポーネントを統合することで、Genie Envisionerは指示駆動型の汎用エンボディドインテリジェンスのためのスケーラブルで実用的な基盤を確立する。すべてのコード、モデル、ベンチマークは公開される予定である。
English
We introduce Genie Envisioner (GE), a unified world foundation platform for
robotic manipulation that integrates policy learning, evaluation, and
simulation within a single video-generative framework. At its core, GE-Base is
a large-scale, instruction-conditioned video diffusion model that captures the
spatial, temporal, and semantic dynamics of real-world robotic interactions in
a structured latent space. Built upon this foundation, GE-Act maps latent
representations to executable action trajectories through a lightweight,
flow-matching decoder, enabling precise and generalizable policy inference
across diverse embodiments with minimal supervision. To support scalable
evaluation and training, GE-Sim serves as an action-conditioned neural
simulator, producing high-fidelity rollouts for closed-loop policy development.
The platform is further equipped with EWMBench, a standardized benchmark suite
measuring visual fidelity, physical consistency, and instruction-action
alignment. Together, these components establish Genie Envisioner as a scalable
and practical foundation for instruction-driven, general-purpose embodied
intelligence. All code, models, and benchmarks will be released publicly.