ChatPaper.aiChatPaper

PlayerOne: Simulatore EgoCentrico del Mondo

PlayerOne: Egocentric World Simulator

June 11, 2025
Autori: Yuanpeng Tu, Hao Luo, Xi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao
cs.AI

Abstract

Presentiamo PlayerOne, il primo simulatore realistico di mondi egocentrici, che facilita un'esplorazione immersiva e senza restrizioni all'interno di ambienti vividamente dinamici. Data un'immagine di scena egocentrica da parte dell'utente, PlayerOne è in grado di costruire accuratamente il mondo corrispondente e generare video egocentrici strettamente allineati con il movimento umano reale della scena catturato da una telecamera esocentrica. PlayerOne viene addestrato attraverso una pipeline che va dal generale al particolare, iniziando con un pre-addestramento su coppie testo-video egocentriche su larga scala per una comprensione egocentrica di livello generale, seguito da un affinamento su dati video-movimento sincroni estratti da dataset video egocentrici-esocentrici con la nostra pipeline di costruzione automatica. Inoltre, considerando l'importanza variabile delle diverse componenti, abbiamo progettato uno schema di iniezione del movimento scomposto in parti, che consente un controllo preciso dei movimenti a livello di parti. Abbiamo inoltre ideato un framework di ricostruzione congiunta che modella progressivamente sia la scena 4D che i fotogrammi video, garantendo la coerenza della scena nella generazione di video di lunga durata. I risultati sperimentali dimostrano una grande capacità di generalizzazione nel controllo preciso di vari movimenti umani e nella modellazione coerente del mondo di scenari diversi. Questo lavoro rappresenta il primo tentativo di simulazione egocentrica del mondo reale e può aprire la strada alla comunità per esplorare nuove frontiere nella modellazione del mondo e nelle sue diverse applicazioni.
English
We introduce PlayerOne, the first egocentric realistic world simulator, facilitating immersive and unrestricted exploration within vividly dynamic environments. Given an egocentric scene image from the user, PlayerOne can accurately construct the corresponding world and generate egocentric videos that are strictly aligned with the real scene human motion of the user captured by an exocentric camera. PlayerOne is trained in a coarse-to-fine pipeline that first performs pretraining on large-scale egocentric text-video pairs for coarse-level egocentric understanding, followed by finetuning on synchronous motion-video data extracted from egocentric-exocentric video datasets with our automatic construction pipeline. Besides, considering the varying importance of different components, we design a part-disentangled motion injection scheme, enabling precise control of part-level movements. In addition, we devise a joint reconstruction framework that progressively models both the 4D scene and video frames, ensuring scene consistency in the long-form video generation. Experimental results demonstrate its great generalization ability in precise control of varying human movements and worldconsistent modeling of diverse scenarios. It marks the first endeavor into egocentric real-world simulation and can pave the way for the community to delve into fresh frontiers of world modeling and its diverse applications.
PDF282June 12, 2025