EgoSim: 身体性インタラクション生成のためのエゴセントリック世界シミュレータ
EgoSim: Egocentric World Simulator for Embodied Interaction Generation
April 1, 2026
著者: Jinkun Hao, Mingda Jia, Ruiyan Wang, Xihui Liu, Ran Yi, Lizhuang Ma, Jiangmiao Pang, Xudong Xu
cs.AI
要旨
我々はEgoSimを提案する。これは閉ループ式のエゴセントリック世界シミュレータであり、空間的一貫性のあるインタラクション動画を生成し、基盤となる3Dシーン状態を持続的に更新することで継続的なシミュレーションを実現する。既存のエゴセントリックシミュレータは、明示的な3D接地が不足しているため視点変化に伴う構造的ドリフトが生じるか、あるいはシーンを静的に扱うため多段階インタラクションにわたる世界状態の更新ができないという課題があった。EgoSimは更新可能な世界状態として3Dシーンをモデル化することで、これらの両方の制限を解決する。我々はGeometry-action-aware Observation Simulationモデルによる具現化インタラクションを生成し、Interaction-aware State Updatingモジュールによる空間的一貫性を確保する。密に整列したシーン-インタラクショントレーニングペアの取得困難性がもたらす重大なデータボトルネックを克服するため、大規模な単眼エゴセントリックビデオから静的点群・カメラ軌道・具現化動作を抽出するスケーラブルなパイプラインを設計した。さらに未校正のスマートフォンによる低コスト実世界データ収集を可能にするキャプチャシステムEgoCapを導入する。大規模実験により、EgoSimが視覚的品質・空間的一貫性・複雑シーンへの一般化・実世界の精巧なインタラクションにおいて既存手法を大幅に上回ることを示すとともに、ロボットマニピュレーションへのクロスエンボディメント転移をサポートすることを実証した。コードとデータセットは近日公開予定。プロジェクトページはegosimulator.github.io。
English
We introduce EgoSim, a closed-loop egocentric world simulator that generates spatially consistent interaction videos and persistently updates the underlying 3D scene state for continuous simulation. Existing egocentric simulators either lack explicit 3D grounding, causing structural drift under viewpoint changes, or treat the scene as static, failing to update world states across multi-stage interactions. EgoSim addresses both limitations by modeling 3D scenes as updatable world states. We generate embodiment interactions via a Geometry-action-aware Observation Simulation model, with spatial consistency from an Interaction-aware State Updating module. To overcome the critical data bottleneck posed by the difficulty in acquiring densely aligned scene-interaction training pairs, we design a scalable pipeline that extracts static point clouds, camera trajectories, and embodiment actions from in-the-wild large-scale monocular egocentric videos. We further introduce EgoCap, a capture system that enables low-cost real-world data collection with uncalibrated smartphones. Extensive experiments demonstrate that EgoSim significantly outperforms existing methods in terms of visual quality, spatial consistency, and generalization to complex scenes and in-the-wild dexterous interactions, while supporting cross-embodiment transfer to robotic manipulation. Codes and datasets will be open soon. The project page is at egosimulator.github.io.