ChatPaper.aiChatPaper

EgoTwin: Тело и взгляд от первого лица в сновидении

EgoTwin: Dreaming Body and View in First Person

August 18, 2025
Авторы: Jingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu
cs.AI

Аннотация

Хотя синтез экзоцентрического видео достиг значительного прогресса, генерация эгоцентрического видео остается малоизученной областью, что требует моделирования контента от первого лица наряду с паттернами движения камеры, вызванными движениями тела пользователя. Чтобы устранить этот пробел, мы представляем новую задачу совместной генерации эгоцентрического видео и движения человека, характеризующуюся двумя ключевыми вызовами: 1) **Согласование точки зрения**: траектория камеры в сгенерированном видео должна точно соответствовать траектории головы, выведенной из движения человека; 2) **Причинно-следственное взаимодействие**: синтезированное движение человека должно причинно согласовываться с наблюдаемой визуальной динамикой между соседними кадрами видео. Для решения этих задач мы предлагаем EgoTwin — совместную фреймворк генерации видео и движения, основанный на архитектуре диффузионного трансформера. В частности, EgoTwin вводит головоцентрическое представление движения, которое привязывает движение человека к суставу головы, и включает механизм взаимодействия, вдохновленный кибернетикой, который явно захватывает причинно-следственное взаимодействие между видео и движением в рамках операций внимания. Для всесторонней оценки мы создаем крупномасштабный набор данных реального мира, содержащий синхронизированные тройки текст-видео-движение, и разрабатываем новые метрики для оценки согласованности видео и движения. Многочисленные эксперименты демонстрируют эффективность фреймворка EgoTwin.
English
While exocentric video synthesis has achieved great progress, egocentric video generation remains largely underexplored, which requires modeling first-person view content along with camera motion patterns induced by the wearer's body movements. To bridge this gap, we introduce a novel task of joint egocentric video and human motion generation, characterized by two key challenges: 1) Viewpoint Alignment: the camera trajectory in the generated video must accurately align with the head trajectory derived from human motion; 2) Causal Interplay: the synthesized human motion must causally align with the observed visual dynamics across adjacent video frames. To address these challenges, we propose EgoTwin, a joint video-motion generation framework built on the diffusion transformer architecture. Specifically, EgoTwin introduces a head-centric motion representation that anchors the human motion to the head joint and incorporates a cybernetics-inspired interaction mechanism that explicitly captures the causal interplay between video and motion within attention operations. For comprehensive evaluation, we curate a large-scale real-world dataset of synchronized text-video-motion triplets and design novel metrics to assess video-motion consistency. Extensive experiments demonstrate the effectiveness of the EgoTwin framework.
PDF162August 25, 2025