AnchorWorld: Verkörperte egozentrische Weltsimulation mit ansichtsbasierter Evolutionsanpassung
AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization
June 5, 2026
Autoren: Yu Li, Menghan Xia, Gongye Liu, Xintao Wang, Conglang Zhang, Lei Ke, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Kun Gai, Yujiu Yang
cs.AI
Zusammenfassung
Obwohl es sich um eine zentrale Forschungsrichtung handelt, ist die interaktive Weltmodellierung hinsichtlich der vielseitigen Steuerbarkeit, die in praktischen Szenarien erforderlich ist, noch wenig erforscht. Um diese Lücke zu schließen, stellen wir AnchorWorld vor, ein Framework, das die egozentrische Simulation durch verbesserte Interaktionsintegrität und einen flexiblen Mechanismus zur Weltanpassung voranbringt. Zunächst nutzen wir die 3D-Bewegung des Menschen als primäre Interaktionsmodalität. Um die außerhalb des Sichtfelds liegenden oder abgeschnittenen Körperteile in egozentrischen Ansichten zu ergänzen, führen wir eine zusätzliche Trainingsüberwachung ein, die exogene Blickwinkel einbezieht, die vom Erstpersonen-Sensorium des Agenten entkoppelt sind. Dies ermöglicht es dem Modell, die Positionierung des gesamten Körpers des Agenten relativ zur Umgebung zu beobachten, was eine robustere räumliche Verankerung von Mensch-Welt-Interaktionen ermöglicht. Darüber hinaus schlagen wir einen einfachen, aber effektiven Mechanismus zur Anpassung sich selbst entwickelnder Welten vor. Dies wird erreicht, indem Ankeransichten innerhalb eines einheitlichen Weltkoordinatensystems definiert werden, gekoppelt mit textuellen Beschreibungen, die die dynamische Entwicklung lokaler Szenen vorgeben. Experimentelle Ergebnisse zeigen, dass AnchorWorld aktuellste Basislinien deutlich übertrifft, während Ablationsstudien die Wirksamkeit unserer Schlüsseldesigns bestätigen. Bemerkenswerterweise zeigt unser Anpassungsschema eine vielversprechende räumlich-zeitliche geometrische Konsistenz und hält sich streng an die vorgeschriebenen Entwicklungsdynamiken.
English
Despite being a pivotal frontier, interactive world modeling remains underexplored in terms of the versatile controllability required by practical scenarios. To bridge this gap, we present AnchorWorld, a framework that advances egocentric simulation through enhanced interaction integrity and a flexible mechanism for world customization. First, we utilize 3D human motion as the primary interaction modality. To complement the out-of-view or truncated body parts in egocentric views, we introduce an auxiliary training supervision that incorporates exogenous viewpoints decoupled from the agent's first-person sensorium. It allows the model to observe the agent's full-body positioning relative to the environment, facilitating a more robust spatial grounding of human-world interactions. Furthermore, we propose a simple yet effective mechanism for customizing self-evolving worlds. This is achieved by defining anchor views within a unified world coordinate system, coupled with textual descriptions dictating the dynamic evolution of local scenes. Experimental results show that AnchorWorld significantly outperforms state-of-the-art baselines, while ablation studies validate the effectiveness of our key designs. Notably, our customization scheme exhibits promising spatio-temporal geometric consistency and adheres strictly to the prescribed evolutionary dynamics.