AnchorWorld: Belichaamde Egocentrische Wereldsimulatie met Zichtgebaseerde Evolutieaanpassing
AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization
June 5, 2026
Auteurs: Yu Li, Menghan Xia, Gongye Liu, Xintao Wang, Conglang Zhang, Lei Ke, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Kun Gai, Yujiu Yang
cs.AI
Samenvatting
Ondanks dat het een cruciaal grensvlak is, blijft interactieve wereldmodellering onderbelicht wat betreft de veelzijdige controleerbaarheid die vereist is in praktische scenario's. Om deze kloof te overbruggen, presenteren we AnchorWorld, een raamwerk dat egocentrische simulatie bevordert door verbeterde interactie-integriteit en een flexibel mechanisme voor wereldaanpassing. Ten eerste gebruiken we 3D menselijke beweging als primaire interactiemodaliteit. Om de buiten beeld of afgekapte lichaamsdelen in egocentrische aanzichten aan te vullen, introduceren we een extra trainingssupervisie die exogene gezichtspunten omvat, losgekoppeld van het eerstepersoons sensorium van de agent. Hierdoor kan het model de volledige lichaamspositionering van de agent ten opzichte van de omgeving observeren, wat een robuustere ruimtelijke verankering van mens-wereldinteracties mogelijk maakt. Verder stellen we een eenvoudig maar effectief mechanisme voor voor het aanpassen van zelf-evoluerende werelden. Dit wordt bereikt door ankerbeelden te definiëren binnen een uniform wereldcoördinatensysteem, gekoppeld aan tekstuele beschrijvingen die de dynamische evolutie van lokale scènes voorschrijven. Experimentele resultaten tonen aan dat AnchorWorld significant beter presteert dan state-of-the-art basislijnen, terwijl ablatiestudies de effectiviteit van onze sleutelontwerpen valideren. Met name vertoont ons aanpassingsschema veelbelovende ruimtelijk-temporele geometrische consistentie en voldoet het strikt aan de voorgeschreven evolutionaire dynamiek.
English
Despite being a pivotal frontier, interactive world modeling remains underexplored in terms of the versatile controllability required by practical scenarios. To bridge this gap, we present AnchorWorld, a framework that advances egocentric simulation through enhanced interaction integrity and a flexible mechanism for world customization. First, we utilize 3D human motion as the primary interaction modality. To complement the out-of-view or truncated body parts in egocentric views, we introduce an auxiliary training supervision that incorporates exogenous viewpoints decoupled from the agent's first-person sensorium. It allows the model to observe the agent's full-body positioning relative to the environment, facilitating a more robust spatial grounding of human-world interactions. Furthermore, we propose a simple yet effective mechanism for customizing self-evolving worlds. This is achieved by defining anchor views within a unified world coordinate system, coupled with textual descriptions dictating the dynamic evolution of local scenes. Experimental results show that AnchorWorld significantly outperforms state-of-the-art baselines, while ablation studies validate the effectiveness of our key designs. Notably, our customization scheme exhibits promising spatio-temporal geometric consistency and adheres strictly to the prescribed evolutionary dynamics.