ChatPaper.aiChatPaper

PlayerOne: Simulador Egocêntrico de Mundo

PlayerOne: Egocentric World Simulator

June 11, 2025
Autores: Yuanpeng Tu, Hao Luo, Xi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao
cs.AI

Resumo

Apresentamos o PlayerOne, o primeiro simulador realista de mundo egocêntrico, que facilita a exploração imersiva e irrestrita em ambientes dinâmicos e vívidos. Dada uma imagem de cena egocêntrica fornecida pelo usuário, o PlayerOne pode construir com precisão o mundo correspondente e gerar vídeos egocêntricos estritamente alinhados com o movimento humano real do usuário capturado por uma câmera exocêntrica. O PlayerOne é treinado em um pipeline de refinamento progressivo que primeiro realiza pré-treinamento em pares texto-vídeo egocêntricos em larga escala para compreensão egocêntrica em nível grosseiro, seguido por ajuste fino em dados de vídeo-movimento síncronos extraídos de conjuntos de dados de vídeo egocêntrico-exocêntrico com nosso pipeline de construção automática. Além disso, considerando a importância variável de diferentes componentes, projetamos um esquema de injeção de movimento desacoplado por partes, permitindo controle preciso dos movimentos em nível de partes. Adicionalmente, desenvolvemos uma estrutura de reconstrução conjunta que modela progressivamente tanto a cena 4D quanto os quadros de vídeo, garantindo consistência da cena na geração de vídeos de longa duração. Resultados experimentais demonstram sua grande capacidade de generalização no controle preciso de diversos movimentos humanos e na modelagem consistente de cenários variados. Este trabalho marca o primeiro esforço em simulação realista de mundo egocêntrico e pode abrir caminho para a comunidade explorar novas fronteiras na modelagem de mundos e suas diversas aplicações.
English
We introduce PlayerOne, the first egocentric realistic world simulator, facilitating immersive and unrestricted exploration within vividly dynamic environments. Given an egocentric scene image from the user, PlayerOne can accurately construct the corresponding world and generate egocentric videos that are strictly aligned with the real scene human motion of the user captured by an exocentric camera. PlayerOne is trained in a coarse-to-fine pipeline that first performs pretraining on large-scale egocentric text-video pairs for coarse-level egocentric understanding, followed by finetuning on synchronous motion-video data extracted from egocentric-exocentric video datasets with our automatic construction pipeline. Besides, considering the varying importance of different components, we design a part-disentangled motion injection scheme, enabling precise control of part-level movements. In addition, we devise a joint reconstruction framework that progressively models both the 4D scene and video frames, ensuring scene consistency in the long-form video generation. Experimental results demonstrate its great generalization ability in precise control of varying human movements and worldconsistent modeling of diverse scenarios. It marks the first endeavor into egocentric real-world simulation and can pave the way for the community to delve into fresh frontiers of world modeling and its diverse applications.
PDF302June 12, 2025