ChatPaper.aiChatPaper

EgoTwin: Sonhando Corpo e Visão em Primeira Pessoa

EgoTwin: Dreaming Body and View in First Person

August 18, 2025
Autores: Jingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu
cs.AI

Resumo

Embora a síntese de vídeo exocêntrica tenha alcançado grandes progressos, a geração de vídeo egocêntrico permanece amplamente inexplorada, o que requer a modelagem de conteúdo em primeira pessoa juntamente com padrões de movimento da câmera induzidos pelos movimentos corporais do usuário. Para preencher essa lacuna, introduzimos uma nova tarefa de geração conjunta de vídeo egocêntrico e movimento humano, caracterizada por dois desafios principais: 1) Alinhamento de Perspectiva: a trajetória da câmera no vídeo gerado deve alinhar-se com precisão à trajetória da cabeça derivada do movimento humano; 2) Interação Causal: o movimento humano sintetizado deve alinhar-se causalmente com a dinâmica visual observada entre quadros adjacentes do vídeo. Para abordar esses desafios, propomos o EgoTwin, um framework de geração conjunta de vídeo e movimento baseado na arquitetura de transformadores de difusão. Especificamente, o EgoTwin introduz uma representação de movimento centrada na cabeça, que ancora o movimento humano à articulação da cabeça, e incorpora um mecanismo de interação inspirado na cibernética que captura explicitamente a interação causal entre vídeo e movimento dentro das operações de atenção. Para avaliação abrangente, compilamos um grande conjunto de dados do mundo real de triplas sincronizadas de texto-vídeo-movimento e projetamos métricas inovadoras para avaliar a consistência entre vídeo e movimento. Experimentos extensivos demonstram a eficácia do framework EgoTwin.
English
While exocentric video synthesis has achieved great progress, egocentric video generation remains largely underexplored, which requires modeling first-person view content along with camera motion patterns induced by the wearer's body movements. To bridge this gap, we introduce a novel task of joint egocentric video and human motion generation, characterized by two key challenges: 1) Viewpoint Alignment: the camera trajectory in the generated video must accurately align with the head trajectory derived from human motion; 2) Causal Interplay: the synthesized human motion must causally align with the observed visual dynamics across adjacent video frames. To address these challenges, we propose EgoTwin, a joint video-motion generation framework built on the diffusion transformer architecture. Specifically, EgoTwin introduces a head-centric motion representation that anchors the human motion to the head joint and incorporates a cybernetics-inspired interaction mechanism that explicitly captures the causal interplay between video and motion within attention operations. For comprehensive evaluation, we curate a large-scale real-world dataset of synchronized text-video-motion triplets and design novel metrics to assess video-motion consistency. Extensive experiments demonstrate the effectiveness of the EgoTwin framework.
PDF192August 25, 2025