ChatPaper.aiChatPaper

AnchorWorld: 視点ベース進化カスタマイズによる身体化された一人称視点世界シミュレーション

AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization

June 5, 2026
著者: Yu Li, Menghan Xia, Gongye Liu, Xintao Wang, Conglang Zhang, Lei Ke, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Kun Gai, Yujiu Yang
cs.AI

要旨

対話型世界モデリングは極めて重要なフロンティアであるにもかかわらず、実用的なシナリオで必要とされる多用途な制御性という観点では、いまだ十分に研究されていない。このギャップを埋めるため、我々はAnchorWorldを提案する。これは、インタラクションの完全性を高め、世界をカスタマイズする柔軟なメカニズムを通じて、自己中心視点シミュレーションを高度化するフレームワークである。まず、3次元の人体動作を主要なインタラクション手法として採用する。自己中心視点において視野外や途切れた身体部位を補完するために、エージェントの一人称感覚器から切り離された外部視点を導入した補助的トレーニング監視手法を導入する。これにより、モデルは環境に対するエージェントの全身の位置関係を観測できるようになり、人間と世界とのインタラクションをより強固に空間的に grounding できるようになる。さらに、自己進化する世界をカスタマイズするための、シンプルでありながら効果的なメカニズムを提案する。これは、統一された世界座標系内でアンカービューを定義し、局所的なシーンの動的な変化を指示するテキスト記述と組み合わせることで実現される。実験結果は、AnchorWorldが最先端のベースラインを大幅に上回る性能を示し、アブレーション研究によって我々の主要な設計の有効性が検証された。特筆すべきは、我々のカスタマイズ手法が、優れた時空間幾何学的一貫性を示し、規定された進化ダイナミクスに厳密に従う点である。
English
Despite being a pivotal frontier, interactive world modeling remains underexplored in terms of the versatile controllability required by practical scenarios. To bridge this gap, we present AnchorWorld, a framework that advances egocentric simulation through enhanced interaction integrity and a flexible mechanism for world customization. First, we utilize 3D human motion as the primary interaction modality. To complement the out-of-view or truncated body parts in egocentric views, we introduce an auxiliary training supervision that incorporates exogenous viewpoints decoupled from the agent's first-person sensorium. It allows the model to observe the agent's full-body positioning relative to the environment, facilitating a more robust spatial grounding of human-world interactions. Furthermore, we propose a simple yet effective mechanism for customizing self-evolving worlds. This is achieved by defining anchor views within a unified world coordinate system, coupled with textual descriptions dictating the dynamic evolution of local scenes. Experimental results show that AnchorWorld significantly outperforms state-of-the-art baselines, while ablation studies validate the effectiveness of our key designs. Notably, our customization scheme exhibits promising spatio-temporal geometric consistency and adheres strictly to the prescribed evolutionary dynamics.