Genie Envisioner: Eine einheitliche Weltgrundlagenplattform für robotergestützte Manipulation
Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation
August 7, 2025
papers.authors: Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai, Si Liu, Jianlan Luo, Liliang Chen, Shuicheng Yan, Maoqing Yao, Guanghui Ren
cs.AI
papers.abstract
Wir stellen Genie Envisioner (GE) vor, eine einheitliche Plattform für die Grundlagen der robotischen Manipulation, die Politik-Lernen, Bewertung und Simulation innerhalb eines einzigen video-generativen Frameworks integriert. Im Kern von GE-Base befindet sich ein groß angelegtes, anweisungsbedingtes Video-Diffusionsmodell, das die räumlichen, zeitlichen und semantischen Dynamiken realer robotischer Interaktionen in einem strukturierten latenten Raum erfasst. Auf dieser Grundlage aufbauend, bildet GE-Act latente Repräsentationen durch einen leichten, flussabgleichenden Decoder auf ausführbare Aktionsbahnen ab, wodurch präzise und generalisierbare Politik-Inferenz über diverse Verkörperungen hinweg mit minimaler Überwachung ermöglicht wird. Um skalierbare Bewertung und Training zu unterstützen, dient GE-Sim als ein aktionsbedingter neuronaler Simulator, der hochwertige Rollouts für die Entwicklung geschlossener Regelkreise erzeugt. Die Plattform ist weiterhin mit EWMBench ausgestattet, einer standardisierten Benchmark-Suite, die visuelle Treue, physikalische Konsistenz und Anweisungs-Aktions-Ausrichtung misst. Zusammen etablieren diese Komponenten Genie Envisioner als eine skalierbare und praktische Grundlage für anweisungsgesteuerte, allgemeinzweckfähige verkörperte Intelligenz. Der gesamte Code, die Modelle und Benchmarks werden öffentlich freigegeben.
English
We introduce Genie Envisioner (GE), a unified world foundation platform for
robotic manipulation that integrates policy learning, evaluation, and
simulation within a single video-generative framework. At its core, GE-Base is
a large-scale, instruction-conditioned video diffusion model that captures the
spatial, temporal, and semantic dynamics of real-world robotic interactions in
a structured latent space. Built upon this foundation, GE-Act maps latent
representations to executable action trajectories through a lightweight,
flow-matching decoder, enabling precise and generalizable policy inference
across diverse embodiments with minimal supervision. To support scalable
evaluation and training, GE-Sim serves as an action-conditioned neural
simulator, producing high-fidelity rollouts for closed-loop policy development.
The platform is further equipped with EWMBench, a standardized benchmark suite
measuring visual fidelity, physical consistency, and instruction-action
alignment. Together, these components establish Genie Envisioner as a scalable
and practical foundation for instruction-driven, general-purpose embodied
intelligence. All code, models, and benchmarks will be released publicly.