EgoSim: Egocentrischer Weltsimulator für die Erzeugung verkörperlichter Interaktionen

Zusammenfassung

Wir stellen EgoSim vor, einen geschlossenen egozentrischen Weltsimulator, der räumlich konsistente Interaktionsvideos erzeugt und den zugrundeliegenden 3D-Szenenzustand persistent aktualisiert, um eine kontinuierliche Simulation zu ermöglichen. Bestehende egozentrische Simulatoren entbehren entweder einer expliziten 3D-Verankerung, was zu struktureller Drift bei Blickwinkeländerungen führt, oder behandeln die Szene als statisch, wodurch Weltzustände über mehrstufige Interaktionen hinweg nicht aktualisiert werden. EgoSim adressiert beide Einschränkungen, indem 3D-Szenen als aktualisierbare Weltzustände modelliert werden. Wir erzeugen Verkörperungsinteraktionen über ein geometrie- und aktionsbasiertes Beobachtungssimulationsmodell, wobei die räumliche Konsistenz von einem interaktionsbewussten Zustandsaktualisierungsmodul sichergestellt wird. Um den kritischen Datenengpass zu überwinden, der durch die Schwierigkeit bei der Beschaffung dicht ausgerichteter Szenen-Interaktions-Trainingspaare entsteht, entwickeln wir eine skalierbare Pipeline, die statische Punktwolken, Kameratrajektorien und Verkörperungsaktionen aus unkontrollierten, großangelegten monokularen egozentrischen Videos extrahiert. Wir führen zudem EgoCap ein, ein Aufnahmesystem, das eine kostengünstige Datenerfassung in der realen Welt mit unkalibrierten Smartphones ermöglicht. Umfangreiche Experimente zeigen, dass EgoSim bestehende Methoden hinsichtlich visueller Qualität, räumlicher Konsistenz und Generalisierbarkeit auf komplexe Szenen sowie unkontrollierte geschickte Interaktionen signifikant übertrifft und dabei domänenübergreifende Übertragung auf robotische Manipulation unterstützt. Codes und Datensätze werden in Kürze veröffentlicht. Die Projektseite ist unter egosimulator.github.io erreichbar.

English

We introduce EgoSim, a closed-loop egocentric world simulator that generates spatially consistent interaction videos and persistently updates the underlying 3D scene state for continuous simulation. Existing egocentric simulators either lack explicit 3D grounding, causing structural drift under viewpoint changes, or treat the scene as static, failing to update world states across multi-stage interactions. EgoSim addresses both limitations by modeling 3D scenes as updatable world states. We generate embodiment interactions via a Geometry-action-aware Observation Simulation model, with spatial consistency from an Interaction-aware State Updating module. To overcome the critical data bottleneck posed by the difficulty in acquiring densely aligned scene-interaction training pairs, we design a scalable pipeline that extracts static point clouds, camera trajectories, and embodiment actions from in-the-wild large-scale monocular egocentric videos. We further introduce EgoCap, a capture system that enables low-cost real-world data collection with uncalibrated smartphones. Extensive experiments demonstrate that EgoSim significantly outperforms existing methods in terms of visual quality, spatial consistency, and generalization to complex scenes and in-the-wild dexterous interactions, while supporting cross-embodiment transfer to robotic manipulation. Codes and datasets will be open soon. The project page is at egosimulator.github.io.

EgoSim: Egocentrischer Weltsimulator für die Erzeugung verkörperlichter Interaktionen

EgoSim: Egocentric World Simulator for Embodied Interaction Generation

Zusammenfassung

Support