EgoTwin : Corps rêvé et vision à la première personne

papers.abstract

Alors que la synthèse vidéo exocentrique a réalisé des progrès significatifs, la génération de vidéos égocentriques reste largement inexplorée, nécessitant la modélisation de contenus en vue à la première personne ainsi que des motifs de mouvement de la caméra induits par les mouvements corporels du porteur. Pour combler cette lacune, nous introduisons une nouvelle tâche de génération conjointe de vidéos égocentriques et de mouvements humains, caractérisée par deux défis majeurs : 1) **Alignement des points de vue** : la trajectoire de la caméra dans la vidéo générée doit s'aligner précisément avec la trajectoire de la tête dérivée du mouvement humain ; 2) **Interaction causale** : le mouvement humain synthétisé doit s'aligner causalement avec la dynamique visuelle observée entre les images vidéo adjacentes. Pour relever ces défis, nous proposons **EgoTwin**, un cadre de génération conjointe vidéo-mouvement basé sur l'architecture de transformateur de diffusion. Plus précisément, EgoTwin introduit une représentation du mouvement centrée sur la tête, qui ancre le mouvement humain à l'articulation de la tête, et intègre un mécanisme d'interaction inspiré de la cybernétique qui capture explicitement l'interaction causale entre la vidéo et le mouvement au sein des opérations d'attention. Pour une évaluation complète, nous avons constitué un ensemble de données à grande échelle de triplets texte-vidéo-mouvement synchronisés provenant du monde réel et conçu de nouvelles métriques pour évaluer la cohérence vidéo-mouvement. Des expériences approfondies démontrent l'efficacité du cadre EgoTwin.

English

While exocentric video synthesis has achieved great progress, egocentric video generation remains largely underexplored, which requires modeling first-person view content along with camera motion patterns induced by the wearer's body movements. To bridge this gap, we introduce a novel task of joint egocentric video and human motion generation, characterized by two key challenges: 1) Viewpoint Alignment: the camera trajectory in the generated video must accurately align with the head trajectory derived from human motion; 2) Causal Interplay: the synthesized human motion must causally align with the observed visual dynamics across adjacent video frames. To address these challenges, we propose EgoTwin, a joint video-motion generation framework built on the diffusion transformer architecture. Specifically, EgoTwin introduces a head-centric motion representation that anchors the human motion to the head joint and incorporates a cybernetics-inspired interaction mechanism that explicitly captures the causal interplay between video and motion within attention operations. For comprehensive evaluation, we curate a large-scale real-world dataset of synchronized text-video-motion triplets and design novel metrics to assess video-motion consistency. Extensive experiments demonstrate the effectiveness of the EgoTwin framework.

EgoTwin : Corps rêvé et vision à la première personne

EgoTwin: Dreaming Body and View in First Person

papers.abstract

Support