EgoTwin: Dromen van Lichaam en Perspectief in de Eerste Persoon
EgoTwin: Dreaming Body and View in First Person
August 18, 2025
Auteurs: Jingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu
cs.AI
Samenvatting
Hoewel exocentrische videosynthese grote vooruitgang heeft geboekt, blijft egocentrische videogeneratie grotendeels onderbelicht, wat het modelleren van inhoud vanuit het eerste-persoonsperspectief vereist, samen met camerabewegingspatronen die worden veroorzaakt door de lichaamsbewegingen van de drager. Om deze kloof te overbruggen, introduceren we een nieuwe taak van gezamenlijke egocentrische video- en menselijke bewegingsgeneratie, gekenmerkt door twee belangrijke uitdagingen: 1) Viewpoint Alignment: de cameratrajecorie in de gegenereerde video moet nauwkeurig uitgelijnd zijn met de hoofdtrajectorie afgeleid van menselijke beweging; 2) Causale Interactie: de gesynthetiseerde menselijke beweging moet causaal uitgelijnd zijn met de waargenomen visuele dynamiek over aangrenzende videoframes. Om deze uitdagingen aan te pakken, stellen we EgoTwin voor, een gezamenlijk video-bewegingsgeneratiekader gebouwd op de diffusie-transformerarchitectuur. Specifiek introduceert EgoTwin een hoofdgerichte bewegingsrepresentatie die de menselijke beweging verankert aan het hoofdgewricht en incorporeert een cybernetisch geïnspireerd interactiemechanisme dat expliciet de causale interactie tussen video en beweging vastlegt binnen aandachtoperaties. Voor een uitgebreide evaluatie hebben we een grootschalige real-world dataset van gesynchroniseerde tekst-video-bewegingstripletten samengesteld en nieuwe metrieken ontworpen om de consistentie tussen video en beweging te beoordelen. Uitgebreide experimenten demonstreren de effectiviteit van het EgoTwin-kader.
English
While exocentric video synthesis has achieved great progress, egocentric
video generation remains largely underexplored, which requires modeling
first-person view content along with camera motion patterns induced by the
wearer's body movements. To bridge this gap, we introduce a novel task of joint
egocentric video and human motion generation, characterized by two key
challenges: 1) Viewpoint Alignment: the camera trajectory in the generated
video must accurately align with the head trajectory derived from human motion;
2) Causal Interplay: the synthesized human motion must causally align with the
observed visual dynamics across adjacent video frames. To address these
challenges, we propose EgoTwin, a joint video-motion generation framework built
on the diffusion transformer architecture. Specifically, EgoTwin introduces a
head-centric motion representation that anchors the human motion to the head
joint and incorporates a cybernetics-inspired interaction mechanism that
explicitly captures the causal interplay between video and motion within
attention operations. For comprehensive evaluation, we curate a large-scale
real-world dataset of synchronized text-video-motion triplets and design novel
metrics to assess video-motion consistency. Extensive experiments demonstrate
the effectiveness of the EgoTwin framework.