EgoTwin: Dromen van Lichaam en Perspectief in de Eerste Persoon

Samenvatting

Hoewel exocentrische videosynthese grote vooruitgang heeft geboekt, blijft egocentrische videogeneratie grotendeels onderbelicht, wat het modelleren van inhoud vanuit het eerste-persoonsperspectief vereist, samen met camerabewegingspatronen die worden veroorzaakt door de lichaamsbewegingen van de drager. Om deze kloof te overbruggen, introduceren we een nieuwe taak van gezamenlijke egocentrische video- en menselijke bewegingsgeneratie, gekenmerkt door twee belangrijke uitdagingen: 1) Viewpoint Alignment: de cameratrajecorie in de gegenereerde video moet nauwkeurig uitgelijnd zijn met de hoofdtrajectorie afgeleid van menselijke beweging; 2) Causale Interactie: de gesynthetiseerde menselijke beweging moet causaal uitgelijnd zijn met de waargenomen visuele dynamiek over aangrenzende videoframes. Om deze uitdagingen aan te pakken, stellen we EgoTwin voor, een gezamenlijk video-bewegingsgeneratiekader gebouwd op de diffusie-transformerarchitectuur. Specifiek introduceert EgoTwin een hoofdgerichte bewegingsrepresentatie die de menselijke beweging verankert aan het hoofdgewricht en incorporeert een cybernetisch geïnspireerd interactiemechanisme dat expliciet de causale interactie tussen video en beweging vastlegt binnen aandachtoperaties. Voor een uitgebreide evaluatie hebben we een grootschalige real-world dataset van gesynchroniseerde tekst-video-bewegingstripletten samengesteld en nieuwe metrieken ontworpen om de consistentie tussen video en beweging te beoordelen. Uitgebreide experimenten demonstreren de effectiviteit van het EgoTwin-kader.

English

While exocentric video synthesis has achieved great progress, egocentric video generation remains largely underexplored, which requires modeling first-person view content along with camera motion patterns induced by the wearer's body movements. To bridge this gap, we introduce a novel task of joint egocentric video and human motion generation, characterized by two key challenges: 1) Viewpoint Alignment: the camera trajectory in the generated video must accurately align with the head trajectory derived from human motion; 2) Causal Interplay: the synthesized human motion must causally align with the observed visual dynamics across adjacent video frames. To address these challenges, we propose EgoTwin, a joint video-motion generation framework built on the diffusion transformer architecture. Specifically, EgoTwin introduces a head-centric motion representation that anchors the human motion to the head joint and incorporates a cybernetics-inspired interaction mechanism that explicitly captures the causal interplay between video and motion within attention operations. For comprehensive evaluation, we curate a large-scale real-world dataset of synchronized text-video-motion triplets and design novel metrics to assess video-motion consistency. Extensive experiments demonstrate the effectiveness of the EgoTwin framework.

EgoTwin: Dromen van Lichaam en Perspectief in de Eerste Persoon

EgoTwin: Dreaming Body and View in First Person

Samenvatting

Support