PlayerOne: Egocentrischer Weltsimulator
PlayerOne: Egocentric World Simulator
June 11, 2025
Autoren: Yuanpeng Tu, Hao Luo, Xi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao
cs.AI
Zusammenfassung
Wir stellen PlayerOne vor, den ersten egozentrischen realistischen Weltsimulator, der eine immersive und uneingeschränkte Erkundung in lebhaft dynamischen Umgebungen ermöglicht. Ausgehend von einem egozentrischen Szenenbild des Benutzers kann PlayerOne die entsprechende Welt präzise konstruieren und egozentrische Videos erzeugen, die streng mit der realen menschlichen Bewegung des Benutzers übereinstimmen, die von einer exozentrischen Kamera aufgenommen wurde. PlayerOne wird in einem grob-zu-fein-Pipeline trainiert, die zunächst ein Vortraining auf groß angelegten egozentrischen Text-Video-Paaren für ein grobes Verständnis der egozentrischen Perspektive durchführt, gefolgt von einem Feintuning auf synchronen Bewegungs-Video-Daten, die mit unserem automatischen Konstruktionspipeline aus egozentrisch-exozentrischen Video-Datensätzen extrahiert wurden. Darüber hinaus berücksichtigen wir die unterschiedliche Bedeutung verschiedener Komponenten und entwerfen ein teil-entwirrtes Bewegungseinspeisungsschema, das eine präzise Steuerung der Bewegungen auf Teilebene ermöglicht. Zusätzlich entwickeln wir ein gemeinsames Rekonstruktionsframework, das sowohl die 4D-Szene als auch die Videobilder progressiv modelliert und so die Szenenkonsistenz bei der Erzeugung langer Videos sicherstellt. Experimentelle Ergebnisse demonstrieren seine große Generalisierungsfähigkeit in der präzisen Steuerung verschiedener menschlicher Bewegungen und der weltkonsistenten Modellierung diverser Szenarien. Es markiert den ersten Versuch in der egozentrischen Simulation der realen Welt und kann den Weg für die Gemeinschaft ebnen, um in neue Grenzen der Weltmodellierung und ihrer vielfältigen Anwendungen einzutauchen.
English
We introduce PlayerOne, the first egocentric realistic world simulator,
facilitating immersive and unrestricted exploration within vividly dynamic
environments. Given an egocentric scene image from the user, PlayerOne can
accurately construct the corresponding world and generate egocentric videos
that are strictly aligned with the real scene human motion of the user captured
by an exocentric camera. PlayerOne is trained in a coarse-to-fine pipeline that
first performs pretraining on large-scale egocentric text-video pairs for
coarse-level egocentric understanding, followed by finetuning on synchronous
motion-video data extracted from egocentric-exocentric video datasets with our
automatic construction pipeline. Besides, considering the varying importance of
different components, we design a part-disentangled motion injection scheme,
enabling precise control of part-level movements. In addition, we devise a
joint reconstruction framework that progressively models both the 4D scene and
video frames, ensuring scene consistency in the long-form video generation.
Experimental results demonstrate its great generalization ability in precise
control of varying human movements and worldconsistent modeling of diverse
scenarios. It marks the first endeavor into egocentric real-world simulation
and can pave the way for the community to delve into fresh frontiers of world
modeling and its diverse applications.