ChatPaper.aiChatPaper

AnchorWorld : Simulation de monde égocentrique incarnée avec personnalisation de l'évolution par vue

AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization

June 5, 2026
Auteurs: Yu Li, Menghan Xia, Gongye Liu, Xintao Wang, Conglang Zhang, Lei Ke, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Kun Gai, Yujiu Yang
cs.AI

Résumé

Bien qu'étant une frontière cruciale, la modélisation interactive du monde reste sous-explorée en termes de contrôlabilité polyvalente requise par les scénarios pratiques. Pour combler cette lacune, nous présentons AnchorWorld, un cadre qui fait progresser la simulation égocentrique grâce à une intégrité d'interaction améliorée et un mécanisme flexible de personnalisation du monde. Premièrement, nous utilisons le mouvement humain 3D comme modalité d'interaction principale. Pour compléter les parties du corps hors champ ou tronquées dans les vues égocentriques, nous introduisons une supervision d'entraînement auxiliaire qui intègre des points de vue exogènes découplés du sensorium en première personne de l'agent. Cela permet au modèle d'observer le positionnement complet du corps de l'agent par rapport à l'environnement, facilitant un ancrage spatial plus robuste des interactions homme-monde. De plus, nous proposons un mécanisme simple mais efficace pour personnaliser des mondes auto-évolutifs. Ceci est réalisé en définissant des vues d'ancrage dans un système de coordonnées mondiales unifié, couplé à des descriptions textuelles dictant l'évolution dynamique des scènes locales. Les résultats expérimentaux montrent qu'AnchorWorld dépasse significativement les références de l'état de l'art, tandis que des études d'ablation valident l'efficacité de nos conceptions clés. Notamment, notre schéma de personnalisation présente une prometteuse cohérence géométrique spatio-temporelle et respecte strictement les dynamiques évolutives prescrites.
English
Despite being a pivotal frontier, interactive world modeling remains underexplored in terms of the versatile controllability required by practical scenarios. To bridge this gap, we present AnchorWorld, a framework that advances egocentric simulation through enhanced interaction integrity and a flexible mechanism for world customization. First, we utilize 3D human motion as the primary interaction modality. To complement the out-of-view or truncated body parts in egocentric views, we introduce an auxiliary training supervision that incorporates exogenous viewpoints decoupled from the agent's first-person sensorium. It allows the model to observe the agent's full-body positioning relative to the environment, facilitating a more robust spatial grounding of human-world interactions. Furthermore, we propose a simple yet effective mechanism for customizing self-evolving worlds. This is achieved by defining anchor views within a unified world coordinate system, coupled with textual descriptions dictating the dynamic evolution of local scenes. Experimental results show that AnchorWorld significantly outperforms state-of-the-art baselines, while ablation studies validate the effectiveness of our key designs. Notably, our customization scheme exhibits promising spatio-temporal geometric consistency and adheres strictly to the prescribed evolutionary dynamics.