EgoX: 단일 엑소센트릭 비디오에서의 에고센트릭 비디오 생성
EgoX: Egocentric Video Generation from a Single Exocentric Video
December 9, 2025
저자: Taewoong Kang, Kinam Kim, Dohyeon Kim, Minho Park, Junha Hyung, Jaegul Choo
cs.AI
초록
자기 중심적 인지는 인간이 자신의 시점에서 세계를 직접 경험하고 이해할 수 있게 합니다. 타자 중심적(3인칭) 영상을 자기 중심적(1인칭) 영상으로 변환하는 것은 몰입형 이해에 새로운 가능성을 열어주지만, 극심한 카메라 자세 변화와 최소한의 시야 중복으로 인해 여전히 매우 어려운 과제입니다. 이 작업은 가시적 콘텐츠를 충실히 보존하면서 보이지 않는 영역을 기하학적으로 일관된 방식으로 합성해야 합니다. 이를 위해 우리는 단일 타자 중심 입력에서 자기 중심적 영상을 생성하는 새로운 프레임워크인 EgoX를 제시합니다. EgoX는 경량 LoRA 적응을 통해 대규모 비디오 확산 모델의 사전 학습된 시공간 지식을 활용하며, 너비 및 채널 방향 연결을 통해 타자 중심 및 자기 중심 사전 지식을 결합하는 통합 조건 설정 전략을 도입합니다. 또한 기하학 기반 자기 주의 메커니즘은 공간적으로 관련된 영역을 선택적으로 주의하여 기하학적 일관성과 높은 시각적 충실도를 보장합니다. 우리의 접근 방식은 일관되고 현실적인 자기 중심적 비디오 생성을 달성하며, 보지 않았거나 실제 환경의 비디오에서도 강력한 확장성과 견고성을 보여줍니다.
English
Egocentric perception enables humans to experience and understand the world directly from their own point of view. Translating exocentric (third-person) videos into egocentric (first-person) videos opens up new possibilities for immersive understanding but remains highly challenging due to extreme camera pose variations and minimal view overlap. This task requires faithfully preserving visible content while synthesizing unseen regions in a geometrically consistent manner. To achieve this, we present EgoX, a novel framework for generating egocentric videos from a single exocentric input. EgoX leverages the pretrained spatio temporal knowledge of large-scale video diffusion models through lightweight LoRA adaptation and introduces a unified conditioning strategy that combines exocentric and egocentric priors via width and channel wise concatenation. Additionally, a geometry-guided self-attention mechanism selectively attends to spatially relevant regions, ensuring geometric coherence and high visual fidelity. Our approach achieves coherent and realistic egocentric video generation while demonstrating strong scalability and robustness across unseen and in-the-wild videos.