EgoX : Génération de vidéos égocentriques à partir d'une seule vidéo exocentrique
EgoX: Egocentric Video Generation from a Single Exocentric Video
December 9, 2025
papers.authors: Taewoong Kang, Kinam Kim, Dohyeon Kim, Minho Park, Junha Hyung, Jaegul Choo
cs.AI
papers.abstract
La perception égocentrique permet aux humains d'expérimenter et de comprendre le monde directement depuis leur propre point de vue. La transformation de vidéos exocentriques (troisième personne) en vidéos égocentriques (première personne) ouvre de nouvelles possibilités pour une compréhension immersive, mais reste extrêmement difficile en raison des variations extrêmes de pose de caméra et du chevauchement minimal des vues. Cette tâche nécessite de préserver fidèlement le contenu visible tout en synthétisant les régions non vues de manière géométriquement cohérente. Pour y parvenir, nous présentons EgoX, un nouveau cadre pour générer des vidéos égocentriques à partir d'une seule entrée exocentrique. EgoX exploite les connaissances spatio-temporelles pré-entraînées des modèles de diffusion vidéo à grande échelle grâce à une adaptation légère LoRA et introduit une stratégie de conditionnement unifiée qui combine les connaissances a priori exocentriques et égocentriques via une concaténation en largeur et par canal. De plus, un mécanisme d'auto-attention guidé par la géométrie sélectionne de manière sélective les régions spatialement pertinentes, garantissant une cohérence géométrique et une haute fidélité visuelle. Notre approche permet une génération de vidéos égocentriques cohérentes et réalistes tout en démontrant une forte évolutivité et robustesse sur des vidéos non vues et en conditions réelles.
English
Egocentric perception enables humans to experience and understand the world directly from their own point of view. Translating exocentric (third-person) videos into egocentric (first-person) videos opens up new possibilities for immersive understanding but remains highly challenging due to extreme camera pose variations and minimal view overlap. This task requires faithfully preserving visible content while synthesizing unseen regions in a geometrically consistent manner. To achieve this, we present EgoX, a novel framework for generating egocentric videos from a single exocentric input. EgoX leverages the pretrained spatio temporal knowledge of large-scale video diffusion models through lightweight LoRA adaptation and introduces a unified conditioning strategy that combines exocentric and egocentric priors via width and channel wise concatenation. Additionally, a geometry-guided self-attention mechanism selectively attends to spatially relevant regions, ensuring geometric coherence and high visual fidelity. Our approach achieves coherent and realistic egocentric video generation while demonstrating strong scalability and robustness across unseen and in-the-wild videos.