PlayerOne: Simulador Egocêntrico de Mundo
PlayerOne: Egocentric World Simulator
June 11, 2025
Autores: Yuanpeng Tu, Hao Luo, Xi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao
cs.AI
Resumo
Apresentamos o PlayerOne, o primeiro simulador realista de mundo egocêntrico, que facilita a exploração imersiva e irrestrita em ambientes dinâmicos e vívidos. Dada uma imagem de cena egocêntrica fornecida pelo usuário, o PlayerOne pode construir com precisão o mundo correspondente e gerar vídeos egocêntricos estritamente alinhados com o movimento humano real do usuário capturado por uma câmera exocêntrica. O PlayerOne é treinado em um pipeline de refinamento progressivo que primeiro realiza pré-treinamento em pares texto-vídeo egocêntricos em larga escala para compreensão egocêntrica em nível grosseiro, seguido por ajuste fino em dados de vídeo-movimento síncronos extraídos de conjuntos de dados de vídeo egocêntrico-exocêntrico com nosso pipeline de construção automática. Além disso, considerando a importância variável de diferentes componentes, projetamos um esquema de injeção de movimento desacoplado por partes, permitindo controle preciso dos movimentos em nível de partes. Adicionalmente, desenvolvemos uma estrutura de reconstrução conjunta que modela progressivamente tanto a cena 4D quanto os quadros de vídeo, garantindo consistência da cena na geração de vídeos de longa duração. Resultados experimentais demonstram sua grande capacidade de generalização no controle preciso de diversos movimentos humanos e na modelagem consistente de cenários variados. Este trabalho marca o primeiro esforço em simulação realista de mundo egocêntrico e pode abrir caminho para a comunidade explorar novas fronteiras na modelagem de mundos e suas diversas aplicações.
English
We introduce PlayerOne, the first egocentric realistic world simulator,
facilitating immersive and unrestricted exploration within vividly dynamic
environments. Given an egocentric scene image from the user, PlayerOne can
accurately construct the corresponding world and generate egocentric videos
that are strictly aligned with the real scene human motion of the user captured
by an exocentric camera. PlayerOne is trained in a coarse-to-fine pipeline that
first performs pretraining on large-scale egocentric text-video pairs for
coarse-level egocentric understanding, followed by finetuning on synchronous
motion-video data extracted from egocentric-exocentric video datasets with our
automatic construction pipeline. Besides, considering the varying importance of
different components, we design a part-disentangled motion injection scheme,
enabling precise control of part-level movements. In addition, we devise a
joint reconstruction framework that progressively models both the 4D scene and
video frames, ensuring scene consistency in the long-form video generation.
Experimental results demonstrate its great generalization ability in precise
control of varying human movements and worldconsistent modeling of diverse
scenarios. It marks the first endeavor into egocentric real-world simulation
and can pave the way for the community to delve into fresh frontiers of world
modeling and its diverse applications.