ChatPaper.aiChatPaper

AnchorWorld: Simulação de Mundo Egocêntrico Incorporado com Customização de Evolução Baseada em Visão

AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization

June 5, 2026
Autores: Yu Li, Menghan Xia, Gongye Liu, Xintao Wang, Conglang Zhang, Lei Ke, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Kun Gai, Yujiu Yang
cs.AI

Resumo

Apesar de ser uma fronteira crucial, a modelagem interativa de mundos permanece subexplorada em termos da controlabilidade versátil exigida por cenários práticos. Para preencher essa lacuna, apresentamos o AnchorWorld, uma estrutura que avança a simulação egocêntrica por meio de uma melhor integridade da interação e um mecanismo flexível para personalização do mundo. Primeiro, utilizamos o movimento humano 3D como principal modalidade de interação. Para complementar as partes do corpo fora do campo de visão ou truncadas em vistas egocêntricas, introduzimos uma supervisão auxiliar de treinamento que incorpora pontos de vista exógenos dissociados do sensorium em primeira pessoa do agente. Isso permite que o modelo observe o posicionamento completo do corpo do agente em relação ao ambiente, facilitando um fundamento espacial mais robusto das interações humano-mundo. Além disso, propomos um mecanismo simples, porém eficaz, para personalizar mundos em auto-evolução. Isso é alcançado definindo vistas âncora dentro de um sistema de coordenadas mundial unificado, combinado com descrições textuais que ditam a evolução dinâmica de cenas locais. Os resultados experimentais mostram que o AnchorWorld supera significativamente as linhas de base de última geração, enquanto estudos de ablação validam a eficácia de nossos projetos principais. Notavelmente, nosso esquema de personalização exibe consistência geométrica espaço-temporal promissora e adere estritamente às dinâmicas evolutivas prescritas.
English
Despite being a pivotal frontier, interactive world modeling remains underexplored in terms of the versatile controllability required by practical scenarios. To bridge this gap, we present AnchorWorld, a framework that advances egocentric simulation through enhanced interaction integrity and a flexible mechanism for world customization. First, we utilize 3D human motion as the primary interaction modality. To complement the out-of-view or truncated body parts in egocentric views, we introduce an auxiliary training supervision that incorporates exogenous viewpoints decoupled from the agent's first-person sensorium. It allows the model to observe the agent's full-body positioning relative to the environment, facilitating a more robust spatial grounding of human-world interactions. Furthermore, we propose a simple yet effective mechanism for customizing self-evolving worlds. This is achieved by defining anchor views within a unified world coordinate system, coupled with textual descriptions dictating the dynamic evolution of local scenes. Experimental results show that AnchorWorld significantly outperforms state-of-the-art baselines, while ablation studies validate the effectiveness of our key designs. Notably, our customization scheme exhibits promising spatio-temporal geometric consistency and adheres strictly to the prescribed evolutionary dynamics.