ChatPaper.aiChatPaper

PlayerOne: Simulador Egocéntrico del Mundo

PlayerOne: Egocentric World Simulator

June 11, 2025
Autores: Yuanpeng Tu, Hao Luo, Xi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao
cs.AI

Resumen

Presentamos PlayerOne, el primer simulador realista egocéntrico del mundo, que facilita la exploración inmersiva y sin restricciones dentro de entornos dinámicos y vívidamente detallados. Dada una imagen de escena egocéntrica proporcionada por el usuario, PlayerOne puede construir con precisión el mundo correspondiente y generar videos egocéntricos que están estrictamente alineados con el movimiento humano real de la escena capturado por una cámara excéntrica. PlayerOne se entrena mediante un enfoque de entrenamiento de lo general a lo específico, que primero realiza un preentrenamiento en pares de texto-video egocéntricos a gran escala para una comprensión egocéntrica de nivel general, seguido de un ajuste fino en datos de video-movimiento sincronizados extraídos de conjuntos de datos de video egocéntrico-excéntrico mediante nuestra canalización de construcción automática. Además, considerando la importancia variable de los diferentes componentes, diseñamos un esquema de inyección de movimiento desacoplado por partes, que permite un control preciso de los movimientos a nivel de partes. Adicionalmente, desarrollamos un marco de reconstrucción conjunta que modela progresivamente tanto la escena 4D como los fotogramas del video, garantizando la consistencia de la escena en la generación de videos de larga duración. Los resultados experimentales demuestran su gran capacidad de generalización en el control preciso de diversos movimientos humanos y el modelado consistente del mundo en escenarios diversos. Este trabajo representa el primer esfuerzo en la simulación egocéntrica del mundo real y puede abrir el camino para que la comunidad explore nuevas fronteras en el modelado del mundo y sus diversas aplicaciones.
English
We introduce PlayerOne, the first egocentric realistic world simulator, facilitating immersive and unrestricted exploration within vividly dynamic environments. Given an egocentric scene image from the user, PlayerOne can accurately construct the corresponding world and generate egocentric videos that are strictly aligned with the real scene human motion of the user captured by an exocentric camera. PlayerOne is trained in a coarse-to-fine pipeline that first performs pretraining on large-scale egocentric text-video pairs for coarse-level egocentric understanding, followed by finetuning on synchronous motion-video data extracted from egocentric-exocentric video datasets with our automatic construction pipeline. Besides, considering the varying importance of different components, we design a part-disentangled motion injection scheme, enabling precise control of part-level movements. In addition, we devise a joint reconstruction framework that progressively models both the 4D scene and video frames, ensuring scene consistency in the long-form video generation. Experimental results demonstrate its great generalization ability in precise control of varying human movements and worldconsistent modeling of diverse scenarios. It marks the first endeavor into egocentric real-world simulation and can pave the way for the community to delve into fresh frontiers of world modeling and its diverse applications.
PDF282June 12, 2025