EgoTwin: Sognare il corpo e la visuale in prima persona
EgoTwin: Dreaming Body and View in First Person
August 18, 2025
Autori: Jingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu
cs.AI
Abstract
Mentre la sintesi video esocentrica ha compiuto notevoli progressi, la generazione di video egocentrici rimane in gran parte inesplorata, richiedendo la modellazione di contenuti in prima persona insieme ai modelli di movimento della camera indotti dai movimenti corporei dell'utilizzatore. Per colmare questa lacuna, introduciamo un nuovo compito di generazione congiunta di video egocentrici e movimento umano, caratterizzato da due sfide principali: 1) Allineamento del Punto di Vista: la traiettoria della camera nel video generato deve allinearsi accuratamente con la traiettoria della testa derivata dal movimento umano; 2) Interazione Causale: il movimento umano sintetizzato deve allinearsi causalmente con le dinamiche visive osservate tra i fotogrammi video adiacenti. Per affrontare queste sfide, proponiamo EgoTwin, un framework di generazione congiunta video-movimento basato sull'architettura del trasformatore a diffusione. Nello specifico, EgoTwin introduce una rappresentazione del movimento centrata sulla testa che ancorra il movimento umano all'articolazione della testa e incorpora un meccanismo di interazione ispirato alla cibernetica che cattura esplicitamente l'interazione causale tra video e movimento all'interno delle operazioni di attenzione. Per una valutazione completa, curiamo un ampio dataset del mondo reale di triplette sincronizzate testo-video-movimento e progettiamo nuove metriche per valutare la coerenza video-movimento. Esperimenti estensivi dimostrano l'efficacia del framework EgoTwin.
English
While exocentric video synthesis has achieved great progress, egocentric
video generation remains largely underexplored, which requires modeling
first-person view content along with camera motion patterns induced by the
wearer's body movements. To bridge this gap, we introduce a novel task of joint
egocentric video and human motion generation, characterized by two key
challenges: 1) Viewpoint Alignment: the camera trajectory in the generated
video must accurately align with the head trajectory derived from human motion;
2) Causal Interplay: the synthesized human motion must causally align with the
observed visual dynamics across adjacent video frames. To address these
challenges, we propose EgoTwin, a joint video-motion generation framework built
on the diffusion transformer architecture. Specifically, EgoTwin introduces a
head-centric motion representation that anchors the human motion to the head
joint and incorporates a cybernetics-inspired interaction mechanism that
explicitly captures the causal interplay between video and motion within
attention operations. For comprehensive evaluation, we curate a large-scale
real-world dataset of synchronized text-video-motion triplets and design novel
metrics to assess video-motion consistency. Extensive experiments demonstrate
the effectiveness of the EgoTwin framework.