PlayerOne: Simulador Egocéntrico del Mundo
PlayerOne: Egocentric World Simulator
June 11, 2025
Autores: Yuanpeng Tu, Hao Luo, Xi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao
cs.AI
Resumen
Presentamos PlayerOne, el primer simulador realista egocéntrico del mundo, que facilita la exploración inmersiva y sin restricciones dentro de entornos dinámicos y vívidamente detallados. Dada una imagen de escena egocéntrica proporcionada por el usuario, PlayerOne puede construir con precisión el mundo correspondiente y generar videos egocéntricos que están estrictamente alineados con el movimiento humano real de la escena capturado por una cámara excéntrica. PlayerOne se entrena mediante un enfoque de entrenamiento de lo general a lo específico, que primero realiza un preentrenamiento en pares de texto-video egocéntricos a gran escala para una comprensión egocéntrica de nivel general, seguido de un ajuste fino en datos de video-movimiento sincronizados extraídos de conjuntos de datos de video egocéntrico-excéntrico mediante nuestra canalización de construcción automática. Además, considerando la importancia variable de los diferentes componentes, diseñamos un esquema de inyección de movimiento desacoplado por partes, que permite un control preciso de los movimientos a nivel de partes. Adicionalmente, desarrollamos un marco de reconstrucción conjunta que modela progresivamente tanto la escena 4D como los fotogramas del video, garantizando la consistencia de la escena en la generación de videos de larga duración. Los resultados experimentales demuestran su gran capacidad de generalización en el control preciso de diversos movimientos humanos y el modelado consistente del mundo en escenarios diversos. Este trabajo representa el primer esfuerzo en la simulación egocéntrica del mundo real y puede abrir el camino para que la comunidad explore nuevas fronteras en el modelado del mundo y sus diversas aplicaciones.
English
We introduce PlayerOne, the first egocentric realistic world simulator,
facilitating immersive and unrestricted exploration within vividly dynamic
environments. Given an egocentric scene image from the user, PlayerOne can
accurately construct the corresponding world and generate egocentric videos
that are strictly aligned with the real scene human motion of the user captured
by an exocentric camera. PlayerOne is trained in a coarse-to-fine pipeline that
first performs pretraining on large-scale egocentric text-video pairs for
coarse-level egocentric understanding, followed by finetuning on synchronous
motion-video data extracted from egocentric-exocentric video datasets with our
automatic construction pipeline. Besides, considering the varying importance of
different components, we design a part-disentangled motion injection scheme,
enabling precise control of part-level movements. In addition, we devise a
joint reconstruction framework that progressively models both the 4D scene and
video frames, ensuring scene consistency in the long-form video generation.
Experimental results demonstrate its great generalization ability in precise
control of varying human movements and worldconsistent modeling of diverse
scenarios. It marks the first endeavor into egocentric real-world simulation
and can pave the way for the community to delve into fresh frontiers of world
modeling and its diverse applications.