PlayerOne: Эгоцентричный симулятор мира
PlayerOne: Egocentric World Simulator
June 11, 2025
Авторы: Yuanpeng Tu, Hao Luo, Xi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao
cs.AI
Аннотация
Мы представляем PlayerOne — первый эгоцентрический реалистичный симулятор мира, который обеспечивает погружение и неограниченное исследование в динамичных и детализированных средах. Получив эгоцентрическое изображение сцены от пользователя, PlayerOne может точно воссоздать соответствующий мир и сгенерировать эгоцентрические видео, строго согласованные с реальными движениями пользователя, зафиксированными экзоцентрической камерой. PlayerOne обучается по схеме от грубого к точному: сначала выполняется предварительное обучение на крупномасштабных парах текст-видео для общего понимания эгоцентрической перспективы, а затем тонкая настройка на синхронных данных движения и видео, извлеченных из наборов данных эгоцентрических и экзоцентрических видео с помощью нашего автоматического конвейера построения. Кроме того, учитывая различную важность компонентов, мы разработали схему разделенного ввода движений, позволяющую точно контролировать движения на уровне отдельных частей. Дополнительно мы создали совместную реконструкционную структуру, которая постепенно моделирует как 4D-сцену, так и кадры видео, обеспечивая согласованность сцены при генерации длинных видео. Экспериментальные результаты демонстрируют высокую способность к обобщению в точном управлении различными движениями человека и согласованном моделировании разнообразных сценариев. Этот проект представляет собой первую попытку создания эгоцентрической симуляции реального мира и может открыть новые горизонты для сообщества в области моделирования мира и его многочисленных приложений.
English
We introduce PlayerOne, the first egocentric realistic world simulator,
facilitating immersive and unrestricted exploration within vividly dynamic
environments. Given an egocentric scene image from the user, PlayerOne can
accurately construct the corresponding world and generate egocentric videos
that are strictly aligned with the real scene human motion of the user captured
by an exocentric camera. PlayerOne is trained in a coarse-to-fine pipeline that
first performs pretraining on large-scale egocentric text-video pairs for
coarse-level egocentric understanding, followed by finetuning on synchronous
motion-video data extracted from egocentric-exocentric video datasets with our
automatic construction pipeline. Besides, considering the varying importance of
different components, we design a part-disentangled motion injection scheme,
enabling precise control of part-level movements. In addition, we devise a
joint reconstruction framework that progressively models both the 4D scene and
video frames, ensuring scene consistency in the long-form video generation.
Experimental results demonstrate its great generalization ability in precise
control of varying human movements and worldconsistent modeling of diverse
scenarios. It marks the first endeavor into egocentric real-world simulation
and can pave the way for the community to delve into fresh frontiers of world
modeling and its diverse applications.