ChatPaper.aiChatPaper

PlayerOne: Egocentrische Wereldsimulator

PlayerOne: Egocentric World Simulator

June 11, 2025
Auteurs: Yuanpeng Tu, Hao Luo, Xi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao
cs.AI

Samenvatting

We introduceren PlayerOne, de eerste egocentrische realistische wereld-simulator, die een meeslepende en onbeperkte verkenning binnen levendige, dynamische omgevingen mogelijk maakt. Gegeven een egocentrische scène-afbeelding van de gebruiker, kan PlayerOne de corresponderende wereld nauwkeurig construeren en egocentrische video's genereren die strikt zijn afgestemd op de echte scène-bewegingen van de gebruiker, vastgelegd door een exocentrische camera. PlayerOne wordt getraind in een grof-naar-fijn pijplijn, waarbij eerst vooraf wordt getraind op grootschalige egocentrische tekst-video-paren voor een grof niveau van egocentrisch begrip, gevolgd door finetuning op synchrone beweging-video-data die is geëxtraheerd uit egocentrische-exocentrische video-datasets met onze automatische constructiepijplijn. Daarnaast, rekening houdend met de variërende belangrijkheid van verschillende componenten, ontwerpen we een part-ontwarrende beweging-injectieschema, waardoor nauwkeurige controle op deel-niveau bewegingen mogelijk wordt. Bovendien ontwikkelen we een gezamenlijk reconstructiekaderwerk dat zowel de 4D-scène als de videobeelden progressief modelleert, wat zorgt voor scèneconsistentie in de langdurige videogeneratie. Experimentele resultaten tonen de grote generalisatiecapaciteit aan in de precieze controle van verschillende menselijke bewegingen en wereldconsistente modellering van diverse scenario's. Het markeert de eerste poging tot egocentrische real-world simulatie en kan de weg vrijmaken voor de gemeenschap om nieuwe grenzen van wereldmodellering en zijn diverse toepassingen te verkennen.
English
We introduce PlayerOne, the first egocentric realistic world simulator, facilitating immersive and unrestricted exploration within vividly dynamic environments. Given an egocentric scene image from the user, PlayerOne can accurately construct the corresponding world and generate egocentric videos that are strictly aligned with the real scene human motion of the user captured by an exocentric camera. PlayerOne is trained in a coarse-to-fine pipeline that first performs pretraining on large-scale egocentric text-video pairs for coarse-level egocentric understanding, followed by finetuning on synchronous motion-video data extracted from egocentric-exocentric video datasets with our automatic construction pipeline. Besides, considering the varying importance of different components, we design a part-disentangled motion injection scheme, enabling precise control of part-level movements. In addition, we devise a joint reconstruction framework that progressively models both the 4D scene and video frames, ensuring scene consistency in the long-form video generation. Experimental results demonstrate its great generalization ability in precise control of varying human movements and worldconsistent modeling of diverse scenarios. It marks the first endeavor into egocentric real-world simulation and can pave the way for the community to delve into fresh frontiers of world modeling and its diverse applications.
PDF302June 12, 2025