EgoX: Egocentrische Videogeneratie vanuit een Enkele Exocentrische Video
EgoX: Egocentric Video Generation from a Single Exocentric Video
December 9, 2025
Auteurs: Taewoong Kang, Kinam Kim, Dohyeon Kim, Minho Park, Junha Hyung, Jaegul Choo
cs.AI
Samenvatting
Egomorfe perceptie stelt mensen in staat om de wereld rechtstreeks vanuit hun eigen gezichtspunt te ervaren en te begrijpen. Het vertalen van exocentrische (derdepersoons) video's naar egocentrische (eerstepersoons) video's opent nieuwe mogelijkheden voor immersief begrip, maar blijft zeer uitdagend door extreme variaties in camerapositie en minimale overlap in beeld. Deze taak vereist het getrouw behouden van zichtbare inhoud terwijl onzichtbare regio's op een geometrisch consistente manier worden gesynthetiseerd. Om dit te bereiken, presenteren we EgoX, een nieuw raamwerk voor het genereren van egocentrische video's vanuit een enkele exocentrische input. EgoX benut de voorgetrainde spatiotemporele kennis van grootschalige videodiffusiemodellen via lichtgewicht LoRA-aanpassing en introduceert een uniforme conditioneringsstrategie die exocentrische en egocentrische priors combineert middels breedte- en kanaalsgewijze concatenatie. Daarnaast selecteert een geometrie-gestuurd zelf-attentiemechanisme selectief ruimtelijk relevante regio's, waardoor geometrische coherentie en hoge visuele kwaliteit worden gewaarborgd. Onze aanpak bereikt samenhangende en realistische egocentrische videogeneratie en toont tegelijkertijd sterke schaalbaarheid en robuustheid bij onbekende en in-the-wild video's.
English
Egocentric perception enables humans to experience and understand the world directly from their own point of view. Translating exocentric (third-person) videos into egocentric (first-person) videos opens up new possibilities for immersive understanding but remains highly challenging due to extreme camera pose variations and minimal view overlap. This task requires faithfully preserving visible content while synthesizing unseen regions in a geometrically consistent manner. To achieve this, we present EgoX, a novel framework for generating egocentric videos from a single exocentric input. EgoX leverages the pretrained spatio temporal knowledge of large-scale video diffusion models through lightweight LoRA adaptation and introduces a unified conditioning strategy that combines exocentric and egocentric priors via width and channel wise concatenation. Additionally, a geometry-guided self-attention mechanism selectively attends to spatially relevant regions, ensuring geometric coherence and high visual fidelity. Our approach achieves coherent and realistic egocentric video generation while demonstrating strong scalability and robustness across unseen and in-the-wild videos.