Genie Envisioner: Eine einheitliche Weltgrundlagenplattform für robotergestützte Manipulation

Zusammenfassung

Wir stellen Genie Envisioner (GE) vor, eine einheitliche Plattform für die Grundlagen der robotischen Manipulation, die Politik-Lernen, Bewertung und Simulation innerhalb eines einzigen video-generativen Frameworks integriert. Im Kern von GE-Base befindet sich ein groß angelegtes, anweisungsbedingtes Video-Diffusionsmodell, das die räumlichen, zeitlichen und semantischen Dynamiken realer robotischer Interaktionen in einem strukturierten latenten Raum erfasst. Auf dieser Grundlage aufbauend, bildet GE-Act latente Repräsentationen durch einen leichten, flussabgleichenden Decoder auf ausführbare Aktionsbahnen ab, wodurch präzise und generalisierbare Politik-Inferenz über diverse Verkörperungen hinweg mit minimaler Überwachung ermöglicht wird. Um skalierbare Bewertung und Training zu unterstützen, dient GE-Sim als ein aktionsbedingter neuronaler Simulator, der hochwertige Rollouts für die Entwicklung geschlossener Regelkreise erzeugt. Die Plattform ist weiterhin mit EWMBench ausgestattet, einer standardisierten Benchmark-Suite, die visuelle Treue, physikalische Konsistenz und Anweisungs-Aktions-Ausrichtung misst. Zusammen etablieren diese Komponenten Genie Envisioner als eine skalierbare und praktische Grundlage für anweisungsgesteuerte, allgemeinzweckfähige verkörperte Intelligenz. Der gesamte Code, die Modelle und Benchmarks werden öffentlich freigegeben.

English

We introduce Genie Envisioner (GE), a unified world foundation platform for robotic manipulation that integrates policy learning, evaluation, and simulation within a single video-generative framework. At its core, GE-Base is a large-scale, instruction-conditioned video diffusion model that captures the spatial, temporal, and semantic dynamics of real-world robotic interactions in a structured latent space. Built upon this foundation, GE-Act maps latent representations to executable action trajectories through a lightweight, flow-matching decoder, enabling precise and generalizable policy inference across diverse embodiments with minimal supervision. To support scalable evaluation and training, GE-Sim serves as an action-conditioned neural simulator, producing high-fidelity rollouts for closed-loop policy development. The platform is further equipped with EWMBench, a standardized benchmark suite measuring visual fidelity, physical consistency, and instruction-action alignment. Together, these components establish Genie Envisioner as a scalable and practical foundation for instruction-driven, general-purpose embodied intelligence. All code, models, and benchmarks will be released publicly.