ChatPaper.aiChatPaper

EgoTwin: 1인칭 시점에서 몸과 시야를 꿈꾸다

EgoTwin: Dreaming Body and View in First Person

August 18, 2025
저자: Jingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu
cs.AI

초록

외심적 비디오 합성은 큰 진전을 이루었지만, 착용자의 신체 움직임에 의해 유발되는 카메라 모션 패턴과 함께 1인칭 시점 콘텐츠를 모델링해야 하는 자기중심적 비디오 생성은 여전히 크게 탐구되지 않은 상태입니다. 이러한 격차를 해소하기 위해, 우리는 자기중심적 비디오와 인간 모션의 결합 생성을 위한 새로운 과제를 소개합니다. 이 과제는 두 가지 주요 도전 과제로 특징지어집니다: 1) 시점 정렬: 생성된 비디오의 카메라 궤적은 인간 모션에서 파생된 머리 궤적과 정확히 일치해야 합니다; 2) 인과적 상호작용: 합성된 인간 모션은 인접한 비디오 프레임 간의 관찰된 시각적 역학과 인과적으로 일치해야 합니다. 이러한 도전 과제를 해결하기 위해, 우리는 디퓨전 트랜스포머 아키텍처를 기반으로 한 EgoTwin이라는 비디오-모션 결합 생성 프레임워크를 제안합니다. 구체적으로, EgoTwin은 인간 모션을 머리 관절에 고정하는 머리 중심 모션 표현을 도입하고, 사이버네틱스에서 영감을 받은 상호작용 메커니즘을 통해 비디오와 모션 간의 인과적 상호작용을 주의 연산 내에서 명시적으로 포착합니다. 포괄적인 평가를 위해, 우리는 동기화된 텍스트-비디오-모션 삼중항으로 구성된 대규모 실세계 데이터셋을 구축하고, 비디오-모션 일관성을 평가하기 위한 새로운 메트릭을 설계했습니다. 광범위한 실험을 통해 EgoTwin 프레임워크의 효과성을 입증했습니다.
English
While exocentric video synthesis has achieved great progress, egocentric video generation remains largely underexplored, which requires modeling first-person view content along with camera motion patterns induced by the wearer's body movements. To bridge this gap, we introduce a novel task of joint egocentric video and human motion generation, characterized by two key challenges: 1) Viewpoint Alignment: the camera trajectory in the generated video must accurately align with the head trajectory derived from human motion; 2) Causal Interplay: the synthesized human motion must causally align with the observed visual dynamics across adjacent video frames. To address these challenges, we propose EgoTwin, a joint video-motion generation framework built on the diffusion transformer architecture. Specifically, EgoTwin introduces a head-centric motion representation that anchors the human motion to the head joint and incorporates a cybernetics-inspired interaction mechanism that explicitly captures the causal interplay between video and motion within attention operations. For comprehensive evaluation, we curate a large-scale real-world dataset of synchronized text-video-motion triplets and design novel metrics to assess video-motion consistency. Extensive experiments demonstrate the effectiveness of the EgoTwin framework.
PDF162August 25, 2025