ChatPaper.aiChatPaper

EgoSim: 체화된 상호작용 생성을 위한 자기 중심적 세계 시뮬레이터

EgoSim: Egocentric World Simulator for Embodied Interaction Generation

April 1, 2026
저자: Jinkun Hao, Mingda Jia, Ruiyan Wang, Xihui Liu, Ran Yi, Lizhuang Ma, Jiangmiao Pang, Xudong Xu
cs.AI

초록

우리는 공간적으로 일관된 상호작용 비디오를 생성하고 지속적인 시뮬레이션을 위해 기반 3D 장면 상태를 지속적으로 업데이트하는 폐루프 자기 중심적 세계 시뮬레이터인 EgoSim을 소개한다. 기존 자기 중심 시뮬레이터는 명시적 3D 기반이 부족하여 시점 변화 시 구조적 드리프트가 발생하거나, 장면을 정적 상태로 취급하여 다단계 상호작용에 걸친 세계 상태 업데이트에 실패한다. EgoSim은 3D 장면을 업데이트 가능한 세계 상태로 모델링하여 이러한 한계를 모두 해결한다. 우리는 형상-행동 인식 관측 시뮬레이션 모델을 통해 구현체 상호작용을 생성하며, 상호작용 인식 상태 업데이트 모듈로부터 공간적 일관성을 확보한다. 밀집 정렬된 장면-상호작용 학습 데이터 쌍 획득의 어려움으로 인한 중요한 데이터 병목 현상을 극복하기 위해, 우리는 대규모 단안 자기 중심 비디오로부터 정적 포인트 클라우드, 카메라 궤적, 구현체 행동을 추출하는 확장 가능한 파이프라인을 설계했다. 또한 보정되지 않은 스마트폰으로 저비용 실세계 데이터 수집을 가능하게 하는 캡처 시스템인 EgoCap을 도입한다. 폭넓은 실험을 통해 EgoSim이 시각적 품질, 공간적 일관성, 복잡한 장면 및 실세계 정교한 상호작용에 대한 일반화 측면에서 기존 방법을 크게 능가함을 입증했으며, 로봇 매니���레이션으로의 교차 구현체 전이를 지원한다. 코드와 데이터셋은 곧 공개될 예정이다. 프로젝트 페이지는 egosimulator.github.io에서 확인할 수 있다.
English
We introduce EgoSim, a closed-loop egocentric world simulator that generates spatially consistent interaction videos and persistently updates the underlying 3D scene state for continuous simulation. Existing egocentric simulators either lack explicit 3D grounding, causing structural drift under viewpoint changes, or treat the scene as static, failing to update world states across multi-stage interactions. EgoSim addresses both limitations by modeling 3D scenes as updatable world states. We generate embodiment interactions via a Geometry-action-aware Observation Simulation model, with spatial consistency from an Interaction-aware State Updating module. To overcome the critical data bottleneck posed by the difficulty in acquiring densely aligned scene-interaction training pairs, we design a scalable pipeline that extracts static point clouds, camera trajectories, and embodiment actions from in-the-wild large-scale monocular egocentric videos. We further introduce EgoCap, a capture system that enables low-cost real-world data collection with uncalibrated smartphones. Extensive experiments demonstrate that EgoSim significantly outperforms existing methods in terms of visual quality, spatial consistency, and generalization to complex scenes and in-the-wild dexterous interactions, while supporting cross-embodiment transfer to robotic manipulation. Codes and datasets will be open soon. The project page is at egosimulator.github.io.
PDF301April 4, 2026