ChatPaper.aiChatPaper

AnchorWorld: Воплощенная эгоцентрическая симуляция мира с настройкой эволюции на основе обзора

AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization

June 5, 2026
Авторы: Yu Li, Menghan Xia, Gongye Liu, Xintao Wang, Conglang Zhang, Lei Ke, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Kun Gai, Yujiu Yang
cs.AI

Аннотация

Несмотря на то, что интерактивное моделирование мира является ключевым рубежом, оно остается недостаточно изученным с точки зрения разносторонней управляемости, необходимой для практических сценариев. Для преодоления этого разрыва мы представляем AnchorWorld — фреймворк, который развивает эгоцентрическую симуляцию за счет повышенной целостности взаимодействия и гибкого механизма настройки мира. Во-первых, мы использует трехмерное движение человека в качестве основного способа взаимодействия. Для дополнения частей тела, находящихся вне поля зрения или кадрированных в эгоцентрических видах, мы вводим вспомогательное обучение с учителем, которое включает внешние точки обзора, не привязанные к сенсорному восприятию агента от первого лица. Это позволяет модели наблюдать полное положение тела агента относительно окружающей среды, способствуя более надежной пространственной привязке взаимодействий человека с миром. Кроме того, мы предлагаем простой, но эффективный механизм настройки саморазвивающихся миров. Это достигается путем определения якорных видов в единой мировой системе координат в сочетании с текстовыми описаниями, задающими динамическую эволюцию локальных сцен. Экспериментальные результаты показывают, что AnchorWorld значительно превосходит передовые базовые модели, а абляционные исследования подтверждают эффективность наших ключевых решений. Примечательно, что наша схема настройки демонстрирует многообещающую пространственно-временную геометрическую согласованность и строго следует заданной динамике эволюции.
English
Despite being a pivotal frontier, interactive world modeling remains underexplored in terms of the versatile controllability required by practical scenarios. To bridge this gap, we present AnchorWorld, a framework that advances egocentric simulation through enhanced interaction integrity and a flexible mechanism for world customization. First, we utilize 3D human motion as the primary interaction modality. To complement the out-of-view or truncated body parts in egocentric views, we introduce an auxiliary training supervision that incorporates exogenous viewpoints decoupled from the agent's first-person sensorium. It allows the model to observe the agent's full-body positioning relative to the environment, facilitating a more robust spatial grounding of human-world interactions. Furthermore, we propose a simple yet effective mechanism for customizing self-evolving worlds. This is achieved by defining anchor views within a unified world coordinate system, coupled with textual descriptions dictating the dynamic evolution of local scenes. Experimental results show that AnchorWorld significantly outperforms state-of-the-art baselines, while ablation studies validate the effectiveness of our key designs. Notably, our customization scheme exhibits promising spatio-temporal geometric consistency and adheres strictly to the prescribed evolutionary dynamics.