Genie Envisioner: Унифицированная платформа мирового уровня для роботизированного манипулирования

Аннотация

Мы представляем Genie Envisioner (GE) — унифицированную платформу для фундаментального моделирования мира в задачах роботизированного манипулирования, которая объединяет обучение политик, оценку и симуляцию в рамках единой видео-генеративной структуры. В основе GE-Base лежит крупномасштабная видео-диффузионная модель, обусловленная инструкциями, которая фиксирует пространственные, временные и семантические динамики реальных взаимодействий роботов в структурированном латентном пространстве. На основе этого фундамента GE-Act преобразует латентные представления в исполняемые траектории действий с помощью легковесного декодера, основанного на методе согласования потоков, что позволяет проводить точный и обобщаемый вывод политик для различных воплощений с минимальным контролем. Для поддержки масштабируемой оценки и обучения GE-Sim выступает в роли нейронного симулятора, обусловленного действиями, генерирующего высококачественные сценарии для разработки замкнутых политик. Платформа также оснащена EWMBench — стандартизированным набором тестов, измеряющих визуальную точность, физическую согласованность и соответствие инструкций действиям. В совокупности эти компоненты делают Genie Envisioner масштабируемой и практичной основой для создания универсального воплощенного интеллекта, управляемого инструкциями. Весь код, модели и тестовые наборы будут опубликованы в открытом доступе.

English

We introduce Genie Envisioner (GE), a unified world foundation platform for robotic manipulation that integrates policy learning, evaluation, and simulation within a single video-generative framework. At its core, GE-Base is a large-scale, instruction-conditioned video diffusion model that captures the spatial, temporal, and semantic dynamics of real-world robotic interactions in a structured latent space. Built upon this foundation, GE-Act maps latent representations to executable action trajectories through a lightweight, flow-matching decoder, enabling precise and generalizable policy inference across diverse embodiments with minimal supervision. To support scalable evaluation and training, GE-Sim serves as an action-conditioned neural simulator, producing high-fidelity rollouts for closed-loop policy development. The platform is further equipped with EWMBench, a standardized benchmark suite measuring visual fidelity, physical consistency, and instruction-action alignment. Together, these components establish Genie Envisioner as a scalable and practical foundation for instruction-driven, general-purpose embodied intelligence. All code, models, and benchmarks will be released publicly.