PlayerOne: 에고센트릭 월드 시뮬레이터
PlayerOne: Egocentric World Simulator
June 11, 2025
저자: Yuanpeng Tu, Hao Luo, Xi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao
cs.AI
초록
우리는 생동감 넘치고 역동적인 환경 속에서 몰입적이고 제약 없는 탐색을 가능하게 하는 최초의 에고센트릭(egocentric) 현실 세계 시뮬레이터인 PlayerOne을 소개한다. 사용자로부터 제공된 에고센트릭 장면 이미지를 기반으로, PlayerOne은 해당 세계를 정확하게 구성하고, 외부 카메라로 캡처된 사용자의 실제 장면 인간 동작과 엄격하게 정렬된 에고센트릭 비디오를 생성할 수 있다. PlayerOne은 대규모 에고센트릭 텍스트-비디오 쌍에 대한 사전 학습을 통해 대략적인 에고센트릭 이해를 수행한 후, 자동 구축 파이프라인을 통해 에고센트릭-외부센트릭 비디오 데이터셋에서 추출한 동기화된 동작-비디오 데이터에 대한 미세 조정을 거치는 coarse-to-fine 파이프라인으로 학습된다. 또한, 다양한 구성 요소의 중요도를 고려하여 부위별 움직임을 정밀하게 제어할 수 있는 부위 분리 동작 주입 방식을 설계하였다. 더불어, 4D 장면과 비디오 프레임을 점진적으로 모델링하는 공동 재구성 프레임워크를 고안하여 장기 비디오 생성에서의 장면 일관성을 보장한다. 실험 결과는 다양한 인간 동작의 정밀한 제어와 다양한 시나리오의 세계 일관성 모델링에서의 뛰어난 일반화 능력을 입증한다. 이는 에고센트릭 현실 세계 시뮬레이션에 대한 첫 번째 시도이며, 커뮤니티가 세계 모델링과 그 다양한 응용 분야의 새로운 영역을 탐구할 수 있는 길을 열어줄 것으로 기대된다.
English
We introduce PlayerOne, the first egocentric realistic world simulator,
facilitating immersive and unrestricted exploration within vividly dynamic
environments. Given an egocentric scene image from the user, PlayerOne can
accurately construct the corresponding world and generate egocentric videos
that are strictly aligned with the real scene human motion of the user captured
by an exocentric camera. PlayerOne is trained in a coarse-to-fine pipeline that
first performs pretraining on large-scale egocentric text-video pairs for
coarse-level egocentric understanding, followed by finetuning on synchronous
motion-video data extracted from egocentric-exocentric video datasets with our
automatic construction pipeline. Besides, considering the varying importance of
different components, we design a part-disentangled motion injection scheme,
enabling precise control of part-level movements. In addition, we devise a
joint reconstruction framework that progressively models both the 4D scene and
video frames, ensuring scene consistency in the long-form video generation.
Experimental results demonstrate its great generalization ability in precise
control of varying human movements and worldconsistent modeling of diverse
scenarios. It marks the first endeavor into egocentric real-world simulation
and can pave the way for the community to delve into fresh frontiers of world
modeling and its diverse applications.