PlayerOne : Simulateur de Monde Égocentrique
PlayerOne: Egocentric World Simulator
June 11, 2025
papers.authors: Yuanpeng Tu, Hao Luo, Xi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao
cs.AI
papers.abstract
Nous présentons PlayerOne, le premier simulateur réaliste de monde égocentrique, facilitant une exploration immersive et sans restriction au sein d’environnements dynamiques et vivants. À partir d’une image de scène égocentrique fournie par l’utilisateur, PlayerOne peut construire avec précision le monde correspondant et générer des vidéos égocentriques strictement alignées avec les mouvements humains réels de l’utilisateur capturés par une caméra exocentrique. PlayerOne est entraîné selon une approche allant du grossier au fin, commençant par un pré-entraînement sur des paires texte-vidéo égocentriques à grande échelle pour une compréhension grossière de la perspective égocentrique, suivi d’un affinage sur des données synchronisées de mouvement-vidéo extraites de jeux de données vidéo égocentriques-exocentriques grâce à notre pipeline de construction automatique. Par ailleurs, tenant compte de l’importance variable des différents composants, nous concevons un schéma d’injection de mouvement désentrelacé par parties, permettant un contrôle précis des mouvements au niveau des segments. De plus, nous élaborons un cadre de reconstruction conjointe qui modélise progressivement à la fois la scène 4D et les images vidéo, garantissant la cohérence de la scène dans la génération de vidéos longues. Les résultats expérimentaux démontrent sa grande capacité de généralisation dans le contrôle précis de divers mouvements humains et la modélisation cohérente de scénarios variés. Cette initiative marque la première tentative de simulation réaliste du monde égocentrique et peut ouvrir la voie à la communauté pour explorer de nouvelles frontières dans la modélisation du monde et ses applications diversifiées.
English
We introduce PlayerOne, the first egocentric realistic world simulator,
facilitating immersive and unrestricted exploration within vividly dynamic
environments. Given an egocentric scene image from the user, PlayerOne can
accurately construct the corresponding world and generate egocentric videos
that are strictly aligned with the real scene human motion of the user captured
by an exocentric camera. PlayerOne is trained in a coarse-to-fine pipeline that
first performs pretraining on large-scale egocentric text-video pairs for
coarse-level egocentric understanding, followed by finetuning on synchronous
motion-video data extracted from egocentric-exocentric video datasets with our
automatic construction pipeline. Besides, considering the varying importance of
different components, we design a part-disentangled motion injection scheme,
enabling precise control of part-level movements. In addition, we devise a
joint reconstruction framework that progressively models both the 4D scene and
video frames, ensuring scene consistency in the long-form video generation.
Experimental results demonstrate its great generalization ability in precise
control of varying human movements and worldconsistent modeling of diverse
scenarios. It marks the first endeavor into egocentric real-world simulation
and can pave the way for the community to delve into fresh frontiers of world
modeling and its diverse applications.