EgoX: Egocentrische Videogenerierung aus einem einzigen exozentrischen Video
EgoX: Egocentric Video Generation from a Single Exocentric Video
December 9, 2025
papers.authors: Taewoong Kang, Kinam Kim, Dohyeon Kim, Minho Park, Junha Hyung, Jaegul Choo
cs.AI
papers.abstract
Die egozentrische Wahrnehmung ermöglicht es Menschen, die Welt direkt aus ihrer eigenen Perspektive zu erleben und zu verstehen. Die Übersetzung exozentrischer (Third-Person) Videos in egozentrische (First-Person) Videos eröffnet neue Möglichkeiten für immersives Verständnis, bleibt jedoch aufgrund extremer Kamerapositionsvariationen und minimaler Bildüberlappung äußerst herausfordernd. Diese Aufgabe erfordert die treue Bewahrung sichtbarer Inhalte bei gleichzeitiger Synthese unsichtbarer Bereiche auf geometrisch konsistente Weise. Um dies zu erreichen, präsentieren wir EgoX, ein neuartiges Framework zur Generierung egozentrischer Videos aus einer einzigen exozentrischen Eingabe. EgoX nutzt das vortrainierte raumzeitliche Wissen großskaliger Video-Diffusionsmodelle durch leichte LoRA-Adaptierung und führt eine vereinheitlichte Konditionierungsstrategie ein, die exozentrische und egozentrische Priors über Breiten- und Kanalverkettung kombiniert. Zusätzlich ermöglicht ein geometriegeführtes Self-Attention-Mechanismus die selektive Fokussierung auf räumlich relevante Regionen, wodurch geometrische Kohärenz und hohe visuelle Qualität sichergestellt werden. Unser Ansatz erreicht eine kohärente und realistische egozentrische Videogenerierung und zeigt gleichzeitig starke Skalierbarkeit und Robustheit gegenüber ungesehenen und unkontrollierten Videos.
English
Egocentric perception enables humans to experience and understand the world directly from their own point of view. Translating exocentric (third-person) videos into egocentric (first-person) videos opens up new possibilities for immersive understanding but remains highly challenging due to extreme camera pose variations and minimal view overlap. This task requires faithfully preserving visible content while synthesizing unseen regions in a geometrically consistent manner. To achieve this, we present EgoX, a novel framework for generating egocentric videos from a single exocentric input. EgoX leverages the pretrained spatio temporal knowledge of large-scale video diffusion models through lightweight LoRA adaptation and introduces a unified conditioning strategy that combines exocentric and egocentric priors via width and channel wise concatenation. Additionally, a geometry-guided self-attention mechanism selectively attends to spatially relevant regions, ensuring geometric coherence and high visual fidelity. Our approach achieves coherent and realistic egocentric video generation while demonstrating strong scalability and robustness across unseen and in-the-wild videos.