EgoTwin: Träumender Körper und Blick in der ersten Person

papers.abstract

Während die exozentrische Videosynthese große Fortschritte erzielt hat, bleibt die egozentrische Videogenerierung weitgehend unerforscht, was die Modellierung von Inhalten aus der Ego-Perspektive sowie von Kamerabewegungsmustern, die durch die Körperbewegungen des Trägers induziert werden, erfordert. Um diese Lücke zu schließen, führen wir eine neuartige Aufgabe der gemeinsamen Generierung von egozentrischen Videos und menschlichen Bewegungen ein, die durch zwei zentrale Herausforderungen gekennzeichnet ist: 1) Blickwinkelausrichtung: Die Kameratrajektorie im generierten Video muss präzise mit der aus der menschlichen Bewegung abgeleiteten Kopftrajektorie übereinstimmen; 2) Kausale Wechselwirkung: Die synthetisierte menschliche Bewegung muss kausal mit den beobachteten visuellen Dynamiken über benachbarte Videobilder hinweg abgestimmt sein. Um diese Herausforderungen zu bewältigen, schlagen wir EgoTwin vor, ein gemeinsames Video-Bewegungs-Generierungsframework, das auf der Diffusion-Transformer-Architektur basiert. Insbesondere führt EgoTwin eine kopforientierte Bewegungsdarstellung ein, die die menschliche Bewegung am Kopf-Gelenk verankert, und integriert einen kybernetisch inspirierten Interaktionsmechanismus, der die kausale Wechselwirkung zwischen Video und Bewegung explizit innerhalb von Aufmerksamkeitsoperationen erfasst. Für eine umfassende Bewertung kuratieren wir einen groß angelegten realen Datensatz von synchronisierten Text-Video-Bewegungs-Tripeln und entwerfen neuartige Metriken, um die Konsistenz zwischen Video und Bewegung zu bewerten. Umfangreiche Experimente demonstrieren die Wirksamkeit des EgoTwin-Frameworks.

English

While exocentric video synthesis has achieved great progress, egocentric video generation remains largely underexplored, which requires modeling first-person view content along with camera motion patterns induced by the wearer's body movements. To bridge this gap, we introduce a novel task of joint egocentric video and human motion generation, characterized by two key challenges: 1) Viewpoint Alignment: the camera trajectory in the generated video must accurately align with the head trajectory derived from human motion; 2) Causal Interplay: the synthesized human motion must causally align with the observed visual dynamics across adjacent video frames. To address these challenges, we propose EgoTwin, a joint video-motion generation framework built on the diffusion transformer architecture. Specifically, EgoTwin introduces a head-centric motion representation that anchors the human motion to the head joint and incorporates a cybernetics-inspired interaction mechanism that explicitly captures the causal interplay between video and motion within attention operations. For comprehensive evaluation, we curate a large-scale real-world dataset of synchronized text-video-motion triplets and design novel metrics to assess video-motion consistency. Extensive experiments demonstrate the effectiveness of the EgoTwin framework.

EgoTwin: Träumender Körper und Blick in der ersten Person

EgoTwin: Dreaming Body and View in First Person

papers.abstract

Support