EgoSim: Simulador de Mundos Egocêntricos para Geração de Interação Corporificada

Resumo

Apresentamos o EgoSim, um simulador egocêntrico de mundo em circuito fechado que gera vídeos de interação espacialmente consistentes e atualiza persistentemente o estado subjacente da cena 3D para simulação contínua. Os simuladores egocêntricos existentes ou carecem de fundamentação 3D explícita, causando deriva estrutural sob mudanças de ponto de vista, ou tratam a cena como estática, falhando em atualizar os estados do mundo através de interações multiestágio. O EgoSim aborda ambas as limitações modelando cenas 3D como estados do mundo atualizáveis. Geramos interações de embodiamento por meio de um modelo de Simulação de Observação com Consciência Geométrica e de Ação, com consistência espacial proveniente de um módulo de Atualização de Estado com Consciência da Interação. Para superar o crítico gargalo de dados representado pela dificuldade em adquirir pares de treinamento cena-interação densamente alinhados, projetamos um *pipeline* escalável que extrai nuvens de pontos estáticas, trajetórias de câmera e ações de embodiamento de vídeos egocêntricos monoculares em larga escala capturados "*in-the-wild*". Introduzimos ainda o EgoCap, um sistema de captura que permite a coleta de dados do mundo real de baixo custo com *smartphones* não calibrados. Experimentos extensivos demonstram que o EgoSim supera significativamente os métodos existentes em termos de qualidade visual, consistência espacial e generalização para cenas complexas e interações destras "in-the-wild", ao mesmo tempo que suporta transferência de *cross-embodiament* para manipulação robótica. Códigos e conjuntos de dados serão abertos em breve. A página do projeto está em egosimulator.github.io.

English

We introduce EgoSim, a closed-loop egocentric world simulator that generates spatially consistent interaction videos and persistently updates the underlying 3D scene state for continuous simulation. Existing egocentric simulators either lack explicit 3D grounding, causing structural drift under viewpoint changes, or treat the scene as static, failing to update world states across multi-stage interactions. EgoSim addresses both limitations by modeling 3D scenes as updatable world states. We generate embodiment interactions via a Geometry-action-aware Observation Simulation model, with spatial consistency from an Interaction-aware State Updating module. To overcome the critical data bottleneck posed by the difficulty in acquiring densely aligned scene-interaction training pairs, we design a scalable pipeline that extracts static point clouds, camera trajectories, and embodiment actions from in-the-wild large-scale monocular egocentric videos. We further introduce EgoCap, a capture system that enables low-cost real-world data collection with uncalibrated smartphones. Extensive experiments demonstrate that EgoSim significantly outperforms existing methods in terms of visual quality, spatial consistency, and generalization to complex scenes and in-the-wild dexterous interactions, while supporting cross-embodiment transfer to robotic manipulation. Codes and datasets will be open soon. The project page is at egosimulator.github.io.

EgoSim: Simulador de Mundos Egocêntricos para Geração de Interação Corporificada

EgoSim: Egocentric World Simulator for Embodied Interaction Generation

Resumo

Support