EgoSim: Simulador del Mundo Egocéntrico para la Generación de Interacción Corporeizada

Resumen

Presentamos EgoSim, un simulador egocéntrico de mundo en bucle cerrado que genera vídeos de interacción espacialmente consistentes y actualiza persistentemente el estado subyacente de la escena 3D para una simulación continua. Los simuladores egocéntricos existentes carecen de un anclaje 3D explícito, lo que provoca deriva estructural bajo cambios de punto de vista, o tratan la escena como estática, sin actualizar los estados del mundo a lo largo de interacciones multi-etapa. EgoSol aborda ambas limitaciones modelando las escenas 3D como estados del mundo actualizables. Generamos interacciones de embodiment mediante un modelo de Simulación de Observación con Conciencia de Geometría-acción, con consistencia espacial proveniente de un módulo de Actualización de Estado con Conciencia de la Interacción. Para superar el cuello de botella crítico de datos que supone la dificultad de adquirir pares de entrenamiento escena-interacción densamente alineados, diseñamos un pipeline escalable que extrae nubes de puntos estáticas, trayectorias de cámara y acciones de embodiment de vídeos egocéntricos monoculares a gran escala capturados en entornos reales (in-the-wild). Además, presentamos EgoCap, un sistema de captura que permite la recolección de datos del mundo real a bajo coste utilizando smartphones no calibrados. Experimentos exhaustivos demuestran que EgoSim supera significativamente a los métodos existentes en términos de calidad visual, consistencia espacial y generalización a escenas complejas e interacciones diestras en entornos reales, mientras admite la transferencia cross-embodiment a la manipulación robótica. Los códigos y conjuntos de datos se publicarán pronto. La página del proyecto se encuentra en egosimulator.github.io.

English

We introduce EgoSim, a closed-loop egocentric world simulator that generates spatially consistent interaction videos and persistently updates the underlying 3D scene state for continuous simulation. Existing egocentric simulators either lack explicit 3D grounding, causing structural drift under viewpoint changes, or treat the scene as static, failing to update world states across multi-stage interactions. EgoSim addresses both limitations by modeling 3D scenes as updatable world states. We generate embodiment interactions via a Geometry-action-aware Observation Simulation model, with spatial consistency from an Interaction-aware State Updating module. To overcome the critical data bottleneck posed by the difficulty in acquiring densely aligned scene-interaction training pairs, we design a scalable pipeline that extracts static point clouds, camera trajectories, and embodiment actions from in-the-wild large-scale monocular egocentric videos. We further introduce EgoCap, a capture system that enables low-cost real-world data collection with uncalibrated smartphones. Extensive experiments demonstrate that EgoSim significantly outperforms existing methods in terms of visual quality, spatial consistency, and generalization to complex scenes and in-the-wild dexterous interactions, while supporting cross-embodiment transfer to robotic manipulation. Codes and datasets will be open soon. The project page is at egosimulator.github.io.

EgoSim: Simulador del Mundo Egocéntrico para la Generación de Interacción Corporeizada

EgoSim: Egocentric World Simulator for Embodied Interaction Generation

Resumen

Support