ChatPaper.aiChatPaper

AnchorWorld: Simulación Encarnada de Mundo Egocéntrico con Personalización Evolutiva Basada en Vistas

AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization

June 5, 2026
Autores: Yu Li, Menghan Xia, Gongye Liu, Xintao Wang, Conglang Zhang, Lei Ke, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Kun Gai, Yujiu Yang
cs.AI

Resumen

A pesar de ser una frontera fundamental, el modelado de mundos interactivos sigue siendo poco explorado en términos de la versatilidad de control requerida por escenarios prácticos. Para cerrar esta brecha, presentamos AnchorWorld, un marco que avanza la simulación egocéntrica mediante una integridad de interacción mejorada y un mecanismo flexible para la personalización del mundo. Primero, utilizamos el movimiento humano en 3D como la modalidad de interacción principal. Para complementar las partes del cuerpo fuera de vista o truncadas en las vistas egocéntricas, introducimos una supervisión de entrenamiento auxiliar que incorpora puntos de vista exógenos desacoplados del sensorio en primera persona del agente. Esto permite que el modelo observe la posición del cuerpo completo del agente en relación con el entorno, facilitando un anclaje espacial más robusto de las interacciones humano-mundo. Además, proponemos un mecanismo simple pero efectivo para personalizar mundos en evolución autónoma. Esto se logra definiendo vistas ancla dentro de un sistema de coordenadas mundial unificado, junto con descripciones textuales que dictan la evolución dinámica de las escenas locales. Los resultados experimentales muestran que AnchorWorld supera significativamente a las líneas base de última generación, mientras que los estudios de ablación validan la efectividad de nuestros diseños clave. Notablemente, nuestro esquema de personalización exhibe una prometedora consistencia geométrica espacio-temporal y se adhiere estrictamente a las dinámicas evolutivas prescritas.
English
Despite being a pivotal frontier, interactive world modeling remains underexplored in terms of the versatile controllability required by practical scenarios. To bridge this gap, we present AnchorWorld, a framework that advances egocentric simulation through enhanced interaction integrity and a flexible mechanism for world customization. First, we utilize 3D human motion as the primary interaction modality. To complement the out-of-view or truncated body parts in egocentric views, we introduce an auxiliary training supervision that incorporates exogenous viewpoints decoupled from the agent's first-person sensorium. It allows the model to observe the agent's full-body positioning relative to the environment, facilitating a more robust spatial grounding of human-world interactions. Furthermore, we propose a simple yet effective mechanism for customizing self-evolving worlds. This is achieved by defining anchor views within a unified world coordinate system, coupled with textual descriptions dictating the dynamic evolution of local scenes. Experimental results show that AnchorWorld significantly outperforms state-of-the-art baselines, while ablation studies validate the effectiveness of our key designs. Notably, our customization scheme exhibits promising spatio-temporal geometric consistency and adheres strictly to the prescribed evolutionary dynamics.