EgoTwin: Soñar el cuerpo y la vista en primera persona
EgoTwin: Dreaming Body and View in First Person
August 18, 2025
Autores: Jingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu
cs.AI
Resumen
Si bien la síntesis de video exocéntrica ha logrado grandes avances, la generación de video egocéntrico sigue siendo en gran medida inexplorada, lo que requiere modelar el contenido desde una perspectiva en primera persona junto con los patrones de movimiento de la cámara inducidos por los movimientos corporales del usuario. Para cerrar esta brecha, introducimos una nueva tarea de generación conjunta de video egocéntrico y movimiento humano, caracterizada por dos desafíos clave: 1) Alineación del punto de vista: la trayectoria de la cámara en el video generado debe alinearse con precisión con la trayectoria de la cabeza derivada del movimiento humano; 2) Interacción causal: el movimiento humano sintetizado debe alinearse causalmente con la dinámica visual observada en los fotogramas adyacentes del video. Para abordar estos desafíos, proponemos EgoTwin, un marco de generación conjunta de video-movimiento basado en la arquitectura del transformador de difusión. Específicamente, EgoTwin introduce una representación del movimiento centrada en la cabeza que ancla el movimiento humano a la articulación de la cabeza e incorpora un mecanismo de interacción inspirado en la cibernética que captura explícitamente la interacción causal entre el video y el movimiento dentro de las operaciones de atención. Para una evaluación exhaustiva, recopilamos un conjunto de datos a gran escala del mundo real de tripletas sincronizadas de texto-video-movimiento y diseñamos métricas novedosas para evaluar la consistencia entre el video y el movimiento. Experimentos extensos demuestran la efectividad del marco EgoTwin.
English
While exocentric video synthesis has achieved great progress, egocentric
video generation remains largely underexplored, which requires modeling
first-person view content along with camera motion patterns induced by the
wearer's body movements. To bridge this gap, we introduce a novel task of joint
egocentric video and human motion generation, characterized by two key
challenges: 1) Viewpoint Alignment: the camera trajectory in the generated
video must accurately align with the head trajectory derived from human motion;
2) Causal Interplay: the synthesized human motion must causally align with the
observed visual dynamics across adjacent video frames. To address these
challenges, we propose EgoTwin, a joint video-motion generation framework built
on the diffusion transformer architecture. Specifically, EgoTwin introduces a
head-centric motion representation that anchors the human motion to the head
joint and incorporates a cybernetics-inspired interaction mechanism that
explicitly captures the causal interplay between video and motion within
attention operations. For comprehensive evaluation, we curate a large-scale
real-world dataset of synchronized text-video-motion triplets and design novel
metrics to assess video-motion consistency. Extensive experiments demonstrate
the effectiveness of the EgoTwin framework.