EgoSim: Эгоцентричный симулятор мира для генерации воплощенного взаимодействия
EgoSim: Egocentric World Simulator for Embodied Interaction Generation
April 1, 2026
Авторы: Jinkun Hao, Mingda Jia, Ruiyan Wang, Xihui Liu, Ran Yi, Lizhuang Ma, Jiangmiao Pang, Xudong Xu
cs.AI
Аннотация
Мы представляем EgoSim — замкнутый эгоцентрический симулятор мира, который генерирует пространственно согласованные видео взаимодействий и постоянно обновляет базовое 3D-состояние сцены для непрерывного моделирования. Существующие эгоцентрические симуляторы либо не имеют явной 3D-привязки, что приводит к структурному дрейфу при изменении точки обзора, либо рассматривают сцену как статичную, не обновляя состояния мира в ходе многоэтапных взаимодействий. EgoSim устраняет оба ограничения, моделируя 3D-сцены как обновляемые состояния мира. Мы генерируем взаимодействия с воплощением с помощью Геометро-действенно-ориентированной Модели Синтеза Наблюдений, обеспечивая пространственную согласованность за счет Модуля Обновления Состояний с Учетом Взаимодействий. Чтобы преодолеть критический недостаток данных, вызванный сложностью получения плотно выровненных пар "сцена-взаимодействие" для обучения, мы разработали масштабируемый конвейер, который извлекает статические облака точек, траектории камер и действия воплощения из немаркированных крупномасштабных монокулярных эгоцентрических видео. Дополнительно мы представляем EgoCap — систему захвата, которая позволяет осуществлять недорогой сбор реальных данных с помощью некалиброванных смартфонов. Многочисленные эксперименты демонстрируют, что EgoSim существенно превосходит существующие методы по визуальному качеству, пространственной согласованности и обобщаемости на сложные сцены и естественные ловкие взаимодействия, одновременно поддерживая кросс-воплощенческий перенос на роботизированные манипуляции. Код и наборы данных будут вскоре открыты. Страница проекта доступна по адресу egosimulator.github.io.
English
We introduce EgoSim, a closed-loop egocentric world simulator that generates spatially consistent interaction videos and persistently updates the underlying 3D scene state for continuous simulation. Existing egocentric simulators either lack explicit 3D grounding, causing structural drift under viewpoint changes, or treat the scene as static, failing to update world states across multi-stage interactions. EgoSim addresses both limitations by modeling 3D scenes as updatable world states. We generate embodiment interactions via a Geometry-action-aware Observation Simulation model, with spatial consistency from an Interaction-aware State Updating module. To overcome the critical data bottleneck posed by the difficulty in acquiring densely aligned scene-interaction training pairs, we design a scalable pipeline that extracts static point clouds, camera trajectories, and embodiment actions from in-the-wild large-scale monocular egocentric videos. We further introduce EgoCap, a capture system that enables low-cost real-world data collection with uncalibrated smartphones. Extensive experiments demonstrate that EgoSim significantly outperforms existing methods in terms of visual quality, spatial consistency, and generalization to complex scenes and in-the-wild dexterous interactions, while supporting cross-embodiment transfer to robotic manipulation. Codes and datasets will be open soon. The project page is at egosimulator.github.io.