EgoTwin: Träumender Körper und Blick in der ersten Person
EgoTwin: Dreaming Body and View in First Person
August 18, 2025
papers.authors: Jingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu
cs.AI
papers.abstract
Während die exozentrische Videosynthese große Fortschritte erzielt hat, bleibt die egozentrische Videogenerierung weitgehend unerforscht, was die Modellierung von Inhalten aus der Ego-Perspektive sowie von Kamerabewegungsmustern, die durch die Körperbewegungen des Trägers induziert werden, erfordert. Um diese Lücke zu schließen, führen wir eine neuartige Aufgabe der gemeinsamen Generierung von egozentrischen Videos und menschlichen Bewegungen ein, die durch zwei zentrale Herausforderungen gekennzeichnet ist: 1) Blickwinkelausrichtung: Die Kameratrajektorie im generierten Video muss präzise mit der aus der menschlichen Bewegung abgeleiteten Kopftrajektorie übereinstimmen; 2) Kausale Wechselwirkung: Die synthetisierte menschliche Bewegung muss kausal mit den beobachteten visuellen Dynamiken über benachbarte Videobilder hinweg abgestimmt sein. Um diese Herausforderungen zu bewältigen, schlagen wir EgoTwin vor, ein gemeinsames Video-Bewegungs-Generierungsframework, das auf der Diffusion-Transformer-Architektur basiert. Insbesondere führt EgoTwin eine kopforientierte Bewegungsdarstellung ein, die die menschliche Bewegung am Kopf-Gelenk verankert, und integriert einen kybernetisch inspirierten Interaktionsmechanismus, der die kausale Wechselwirkung zwischen Video und Bewegung explizit innerhalb von Aufmerksamkeitsoperationen erfasst. Für eine umfassende Bewertung kuratieren wir einen groß angelegten realen Datensatz von synchronisierten Text-Video-Bewegungs-Tripeln und entwerfen neuartige Metriken, um die Konsistenz zwischen Video und Bewegung zu bewerten. Umfangreiche Experimente demonstrieren die Wirksamkeit des EgoTwin-Frameworks.
English
While exocentric video synthesis has achieved great progress, egocentric
video generation remains largely underexplored, which requires modeling
first-person view content along with camera motion patterns induced by the
wearer's body movements. To bridge this gap, we introduce a novel task of joint
egocentric video and human motion generation, characterized by two key
challenges: 1) Viewpoint Alignment: the camera trajectory in the generated
video must accurately align with the head trajectory derived from human motion;
2) Causal Interplay: the synthesized human motion must causally align with the
observed visual dynamics across adjacent video frames. To address these
challenges, we propose EgoTwin, a joint video-motion generation framework built
on the diffusion transformer architecture. Specifically, EgoTwin introduces a
head-centric motion representation that anchors the human motion to the head
joint and incorporates a cybernetics-inspired interaction mechanism that
explicitly captures the causal interplay between video and motion within
attention operations. For comprehensive evaluation, we curate a large-scale
real-world dataset of synchronized text-video-motion triplets and design novel
metrics to assess video-motion consistency. Extensive experiments demonstrate
the effectiveness of the EgoTwin framework.