EgoSim : Simulateur de Monde Égocentrique pour la Génération d'Interactions Incarnées

Résumé

Nous présentons EgoSim, un simulateur égocentrique en boucle fermée qui génère des vidéos d'interaction spatialement cohérentes et met à jour de manière persistante l'état scénique 3D sous-jacent pour une simulation continue. Les simulateurs égocentriques existants manquent soit d'ancrage 3D explicite, entraînant une dérive structurelle lors des changements de point de vue, soit traitent la scène comme statique, ne parvenant pas à actualiser les états du monde lors d'interactions multi-étapes. EgoSim résout ces deux limitations en modélisant les scènes 3D comme des états mondiaux actualisables. Nous générons des interactions d'incarnation via un modèle de simulation d'observation sensible à la géométrie et à l'action, avec une cohérence spatiale assurée par un module de mise à jour d'état sensible à l'interaction. Pour surmonter le goulot d'étranglement critique des données posé par la difficulté d'acquérir des paires d'entraînement scène-interaction densément alignées, nous concevons un pipeline évolutif qui extrait des nuages de points statiques, des trajectoires de caméra et des actions d'incarnation à partir de vidéos égocentriques monoculaires à grande échelle capturées en conditions réelles. Nous présentons également EgoCap, un système de capture qui permet une collecte de données en monde réel à faible coût avec des smartphones non calibrés. Des expériences approfondies démontrent qu'EgoSim surpasse significativement les méthodes existantes en termes de qualité visuelle, de cohérence spatiale et de généralisation à des scènes complexes et à des interactions manuelles en conditions réelles, tout en supportant le transfert inter-incarnation vers la manipulation robotique. Les codes et jeux de données seront bientôt ouverts. La page du projet se trouve à egosimulator.github.io.

English

We introduce EgoSim, a closed-loop egocentric world simulator that generates spatially consistent interaction videos and persistently updates the underlying 3D scene state for continuous simulation. Existing egocentric simulators either lack explicit 3D grounding, causing structural drift under viewpoint changes, or treat the scene as static, failing to update world states across multi-stage interactions. EgoSim addresses both limitations by modeling 3D scenes as updatable world states. We generate embodiment interactions via a Geometry-action-aware Observation Simulation model, with spatial consistency from an Interaction-aware State Updating module. To overcome the critical data bottleneck posed by the difficulty in acquiring densely aligned scene-interaction training pairs, we design a scalable pipeline that extracts static point clouds, camera trajectories, and embodiment actions from in-the-wild large-scale monocular egocentric videos. We further introduce EgoCap, a capture system that enables low-cost real-world data collection with uncalibrated smartphones. Extensive experiments demonstrate that EgoSim significantly outperforms existing methods in terms of visual quality, spatial consistency, and generalization to complex scenes and in-the-wild dexterous interactions, while supporting cross-embodiment transfer to robotic manipulation. Codes and datasets will be open soon. The project page is at egosimulator.github.io.

EgoSim : Simulateur de Monde Égocentrique pour la Génération d'Interactions Incarnées

EgoSim: Egocentric World Simulator for Embodied Interaction Generation

Résumé

Support