ChatPaper.aiChatPaper

PlayerOne: エゴセントリック・ワールドシミュレータ

PlayerOne: Egocentric World Simulator

June 11, 2025
著者: Yuanpeng Tu, Hao Luo, Xi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao
cs.AI

要旨

我々は、没入的で制約のない探索を可能にする初のエゴセントリックな現実世界シミュレータ「PlayerOne」を紹介する。ユーザーから提供されたエゴセントリックなシーン画像を基に、PlayerOneは対応する世界を正確に構築し、エクソセントリックカメラで捉えたユーザーの実シーン人間の動きに厳密に整合するエゴセントリックな動画を生成する。PlayerOneは、粗から細へのパイプラインで訓練されており、まず大規模なエゴセントリックなテキスト-動画ペアを用いて粗いレベルのエゴセントリック理解のための事前学習を行い、その後、我々の自動構築パイプラインで抽出したエゴセントリック-エクソセントリック動画データセットからの同期した動き-動画データを用いて微調整を行う。さらに、異なるコンポーネントの重要性を考慮し、パートごとの動きを精密に制御可能なパート分離型モーションインジェクションスキームを設計した。加えて、4Dシーンと動画フレームの両方を段階的にモデル化する共同再構成フレームワークを考案し、長時間動画生成におけるシーン一貫性を確保する。実験結果は、様々な人間の動きの精密な制御と多様なシナリオの世界一貫性モデリングにおける優れた汎化能力を示している。これはエゴセントリックな現実世界シミュレーションへの初の試みであり、コミュニティが世界モデリングとその多様な応用の新たなフロンティアに深く入り込むための道を開くものである。
English
We introduce PlayerOne, the first egocentric realistic world simulator, facilitating immersive and unrestricted exploration within vividly dynamic environments. Given an egocentric scene image from the user, PlayerOne can accurately construct the corresponding world and generate egocentric videos that are strictly aligned with the real scene human motion of the user captured by an exocentric camera. PlayerOne is trained in a coarse-to-fine pipeline that first performs pretraining on large-scale egocentric text-video pairs for coarse-level egocentric understanding, followed by finetuning on synchronous motion-video data extracted from egocentric-exocentric video datasets with our automatic construction pipeline. Besides, considering the varying importance of different components, we design a part-disentangled motion injection scheme, enabling precise control of part-level movements. In addition, we devise a joint reconstruction framework that progressively models both the 4D scene and video frames, ensuring scene consistency in the long-form video generation. Experimental results demonstrate its great generalization ability in precise control of varying human movements and worldconsistent modeling of diverse scenarios. It marks the first endeavor into egocentric real-world simulation and can pave the way for the community to delve into fresh frontiers of world modeling and its diverse applications.
PDF282June 12, 2025