AnchorWorld: 시점 기반 진화 맞춤형 구현형 에고센트릭 세계 시뮬레이션
AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization
June 5, 2026
저자: Yu Li, Menghan Xia, Gongye Liu, Xintao Wang, Conglang Zhang, Lei Ke, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Kun Gai, Yujiu Yang
cs.AI
초록
중추적 프론티어임에도 불구하고, 실제 시나리오에서 요구되는 다양한 제어 가능성 측면에서 상호작용 세계 모델링은 여전히 충분히 탐구되지 않은 상태이다. 이러한 격차를 해소하기 위해, 본 논문은 향상된 상호작용 완전성과 세계 맞춤 설정을 위한 유연한 메커니즘을 통해 자기중심 시뮬레이션을 발전시키는 프레임워크인 AnchorWorld를 제시한다. 첫째, 우리는 3차원 인간 동작을 주요 상호작용 양식으로 활용한다. 자기중심 시야에서 벗어나거나 잘린 신체 부위를 보완하기 위해, 우리는 에이전트의 일인칭 감각 기관에서 분리된 외인적 시점을 통합하는 보조 훈련 감독을 도입한다. 이를 통해 모델이 환경 대비 에이전트의 전신 위치를 관찰할 수 있게 되어, 인간-세계 상호작용의 보다 강건한 공간적 기반을 마련한다. 또한, 우리는 자기 진화적 세계를 맞춤 설정하기 위한 간단하면서도 효과적인 메커니즘을 제안한다. 이는 통합된 세계 좌표계 내에서 앵커 뷰를 정의하고, 국지적 장면의 동적 진화를 지시하는 텍스트 설명을 결합함으로써 달성된다. 실험 결과, AnchorWorld는 최첨단 기준 모델들을 크게 능가하며, 절제 연구를 통해 핵심 설계의 효과성을 검증한다. 특히, 우리의 맞춤 설정 기법은 유망한 시공간 기하학적 일관성을 보여줄 뿐만 아니라, 규정된 진화적 동역학을 엄격히 준수함을 입증한다.
English
Despite being a pivotal frontier, interactive world modeling remains underexplored in terms of the versatile controllability required by practical scenarios. To bridge this gap, we present AnchorWorld, a framework that advances egocentric simulation through enhanced interaction integrity and a flexible mechanism for world customization. First, we utilize 3D human motion as the primary interaction modality. To complement the out-of-view or truncated body parts in egocentric views, we introduce an auxiliary training supervision that incorporates exogenous viewpoints decoupled from the agent's first-person sensorium. It allows the model to observe the agent's full-body positioning relative to the environment, facilitating a more robust spatial grounding of human-world interactions. Furthermore, we propose a simple yet effective mechanism for customizing self-evolving worlds. This is achieved by defining anchor views within a unified world coordinate system, coupled with textual descriptions dictating the dynamic evolution of local scenes. Experimental results show that AnchorWorld significantly outperforms state-of-the-art baselines, while ablation studies validate the effectiveness of our key designs. Notably, our customization scheme exhibits promising spatio-temporal geometric consistency and adheres strictly to the prescribed evolutionary dynamics.