PlayerOne: Simulatore EgoCentrico del Mondo
PlayerOne: Egocentric World Simulator
June 11, 2025
Autori: Yuanpeng Tu, Hao Luo, Xi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao
cs.AI
Abstract
Presentiamo PlayerOne, il primo simulatore realistico di mondi egocentrici, che facilita un'esplorazione immersiva e senza restrizioni all'interno di ambienti vividamente dinamici. Data un'immagine di scena egocentrica da parte dell'utente, PlayerOne è in grado di costruire accuratamente il mondo corrispondente e generare video egocentrici strettamente allineati con il movimento umano reale della scena catturato da una telecamera esocentrica. PlayerOne viene addestrato attraverso una pipeline che va dal generale al particolare, iniziando con un pre-addestramento su coppie testo-video egocentriche su larga scala per una comprensione egocentrica di livello generale, seguito da un affinamento su dati video-movimento sincroni estratti da dataset video egocentrici-esocentrici con la nostra pipeline di costruzione automatica. Inoltre, considerando l'importanza variabile delle diverse componenti, abbiamo progettato uno schema di iniezione del movimento scomposto in parti, che consente un controllo preciso dei movimenti a livello di parti. Abbiamo inoltre ideato un framework di ricostruzione congiunta che modella progressivamente sia la scena 4D che i fotogrammi video, garantendo la coerenza della scena nella generazione di video di lunga durata. I risultati sperimentali dimostrano una grande capacità di generalizzazione nel controllo preciso di vari movimenti umani e nella modellazione coerente del mondo di scenari diversi. Questo lavoro rappresenta il primo tentativo di simulazione egocentrica del mondo reale e può aprire la strada alla comunità per esplorare nuove frontiere nella modellazione del mondo e nelle sue diverse applicazioni.
English
We introduce PlayerOne, the first egocentric realistic world simulator,
facilitating immersive and unrestricted exploration within vividly dynamic
environments. Given an egocentric scene image from the user, PlayerOne can
accurately construct the corresponding world and generate egocentric videos
that are strictly aligned with the real scene human motion of the user captured
by an exocentric camera. PlayerOne is trained in a coarse-to-fine pipeline that
first performs pretraining on large-scale egocentric text-video pairs for
coarse-level egocentric understanding, followed by finetuning on synchronous
motion-video data extracted from egocentric-exocentric video datasets with our
automatic construction pipeline. Besides, considering the varying importance of
different components, we design a part-disentangled motion injection scheme,
enabling precise control of part-level movements. In addition, we devise a
joint reconstruction framework that progressively models both the 4D scene and
video frames, ensuring scene consistency in the long-form video generation.
Experimental results demonstrate its great generalization ability in precise
control of varying human movements and worldconsistent modeling of diverse
scenarios. It marks the first endeavor into egocentric real-world simulation
and can pave the way for the community to delve into fresh frontiers of world
modeling and its diverse applications.