EgoTwin : Corps rêvé et vision à la première personne
EgoTwin: Dreaming Body and View in First Person
August 18, 2025
papers.authors: Jingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu
cs.AI
papers.abstract
Alors que la synthèse vidéo exocentrique a réalisé des progrès significatifs, la génération de vidéos égocentriques reste largement inexplorée, nécessitant la modélisation de contenus en vue à la première personne ainsi que des motifs de mouvement de la caméra induits par les mouvements corporels du porteur. Pour combler cette lacune, nous introduisons une nouvelle tâche de génération conjointe de vidéos égocentriques et de mouvements humains, caractérisée par deux défis majeurs : 1) **Alignement des points de vue** : la trajectoire de la caméra dans la vidéo générée doit s'aligner précisément avec la trajectoire de la tête dérivée du mouvement humain ; 2) **Interaction causale** : le mouvement humain synthétisé doit s'aligner causalement avec la dynamique visuelle observée entre les images vidéo adjacentes. Pour relever ces défis, nous proposons **EgoTwin**, un cadre de génération conjointe vidéo-mouvement basé sur l'architecture de transformateur de diffusion. Plus précisément, EgoTwin introduit une représentation du mouvement centrée sur la tête, qui ancre le mouvement humain à l'articulation de la tête, et intègre un mécanisme d'interaction inspiré de la cybernétique qui capture explicitement l'interaction causale entre la vidéo et le mouvement au sein des opérations d'attention. Pour une évaluation complète, nous avons constitué un ensemble de données à grande échelle de triplets texte-vidéo-mouvement synchronisés provenant du monde réel et conçu de nouvelles métriques pour évaluer la cohérence vidéo-mouvement. Des expériences approfondies démontrent l'efficacité du cadre EgoTwin.
English
While exocentric video synthesis has achieved great progress, egocentric
video generation remains largely underexplored, which requires modeling
first-person view content along with camera motion patterns induced by the
wearer's body movements. To bridge this gap, we introduce a novel task of joint
egocentric video and human motion generation, characterized by two key
challenges: 1) Viewpoint Alignment: the camera trajectory in the generated
video must accurately align with the head trajectory derived from human motion;
2) Causal Interplay: the synthesized human motion must causally align with the
observed visual dynamics across adjacent video frames. To address these
challenges, we propose EgoTwin, a joint video-motion generation framework built
on the diffusion transformer architecture. Specifically, EgoTwin introduces a
head-centric motion representation that anchors the human motion to the head
joint and incorporates a cybernetics-inspired interaction mechanism that
explicitly captures the causal interplay between video and motion within
attention operations. For comprehensive evaluation, we curate a large-scale
real-world dataset of synchronized text-video-motion triplets and design novel
metrics to assess video-motion consistency. Extensive experiments demonstrate
the effectiveness of the EgoTwin framework.