EgoSim: Egocentrische Wereldsimulator voor de Generatie van Belichaamde Interactie
EgoSim: Egocentric World Simulator for Embodied Interaction Generation
April 1, 2026
Auteurs: Jinkun Hao, Mingda Jia, Ruiyan Wang, Xihui Liu, Ran Yi, Lizhuang Ma, Jiangmiao Pang, Xudong Xu
cs.AI
Samenvatting
Wij introduceren EgoSim, een gesloten-lus egocentrische wereldsimulator die ruimtelijk consistente interactievideo's genereert en de onderliggende 3D-scènetoestand voortdurend bijwerkt voor continue simulatie. Bestaande egocentrische simulators missen ofwel expliciete 3D-verankering, wat structurele drift bij viewpointveranderingen veroorzaakt, of behandelen de scène als statisch, waardoor wereldtoestanden niet worden bijgewerkt tijdens meerstapsinteracties. EgoSim lost beide beperkingen op door 3D-scènes te modelleren als bijwerkbare wereldtoestanden. Wij genereren belichamingsinteracties via een Geometry-action-aware Observation Simulation-model, met ruimtelijke consistentie afkomstig van een Interaction-aware State Updating-module. Om het kritieke dataknelpunt op te lossen dat wordt veroorzaakt door de moeilijkheid om dicht uitgelijnde scène-interactietrainingsparen te verkrijgen, ontwerpen we een schaalbare pijplijn die statische puntenwolken, cameratrajecten en belichamingsacties extraheert uit in-the-wild grootschalige monocular egocentrische video's. We introduceren verder EgoCap, een capturesysteem dat low-cost datacollectie in de echte wereld mogelijk maakt met ongekalibreerde smartphones. Uitgebreide experimenten tonen aan dat EgoSim bestaande methoden significant overtreft op het gebied van visuele kwaliteit, ruimtelijke consistentie en generalisatie naar complexe scènes en in-the-wild behendige interacties, terwijl het cross-embodiment transfer naar robotmanipulatie ondersteunt. Code en datasets worden binnenkort openbaar gemaakt. De projectpagina staat op egosimulator.github.io.
English
We introduce EgoSim, a closed-loop egocentric world simulator that generates spatially consistent interaction videos and persistently updates the underlying 3D scene state for continuous simulation. Existing egocentric simulators either lack explicit 3D grounding, causing structural drift under viewpoint changes, or treat the scene as static, failing to update world states across multi-stage interactions. EgoSim addresses both limitations by modeling 3D scenes as updatable world states. We generate embodiment interactions via a Geometry-action-aware Observation Simulation model, with spatial consistency from an Interaction-aware State Updating module. To overcome the critical data bottleneck posed by the difficulty in acquiring densely aligned scene-interaction training pairs, we design a scalable pipeline that extracts static point clouds, camera trajectories, and embodiment actions from in-the-wild large-scale monocular egocentric videos. We further introduce EgoCap, a capture system that enables low-cost real-world data collection with uncalibrated smartphones. Extensive experiments demonstrate that EgoSim significantly outperforms existing methods in terms of visual quality, spatial consistency, and generalization to complex scenes and in-the-wild dexterous interactions, while supporting cross-embodiment transfer to robotic manipulation. Codes and datasets will be open soon. The project page is at egosimulator.github.io.