EgoX: Generación de Vídeo Egocéntrico a partir de un Único Vídeo Exocéntrico
EgoX: Egocentric Video Generation from a Single Exocentric Video
December 9, 2025
Autores: Taewoong Kang, Kinam Kim, Dohyeon Kim, Minho Park, Junha Hyung, Jaegul Choo
cs.AI
Resumen
La percepción egocéntrica permite a los seres humanos experimentar y comprender el mundo directamente desde su propio punto de vista. La traducción de vídeos exocéntricos (en tercera persona) a vídeos egocéntricos (en primera persona) abre nuevas posibilidades para una comprensión inmersiva, pero sigue siendo extremadamente desafiante debido a las variaciones extremas en la pose de la cámara y la superposición mínima de vistas. Esta tarea requiere preservar fielmente el contenido visible mientras se sintetizan las regiones no vistas de manera geométricamente consistente. Para lograrlo, presentamos EgoX, un marco novedoso para generar vídeos egocéntricos a partir de una única entrada exocéntrica. EgoX aprovecha el conocimiento espacio-temporal preentrenado de los modelos de difusión de vídeo a gran escala mediante una adaptación ligera con LoRA e introduce una estrategia de condicionamiento unificada que combina *priors* exocéntricos y egocéntricos mediante concatenación en anchura y canal. Adicionalmente, un mecanismo de autoatención guiado por geometría atiende selectivamente a las regiones espacialmente relevantes, garantizando coherencia geométrica y alta fidelidad visual. Nuestro enfoque logra una generación de vídeo egocéntrico coherente y realista, demostrando al mismo tiempo una fuerte escalabilidad y robustez en vídeos no vistos y en entornos no controlados.
English
Egocentric perception enables humans to experience and understand the world directly from their own point of view. Translating exocentric (third-person) videos into egocentric (first-person) videos opens up new possibilities for immersive understanding but remains highly challenging due to extreme camera pose variations and minimal view overlap. This task requires faithfully preserving visible content while synthesizing unseen regions in a geometrically consistent manner. To achieve this, we present EgoX, a novel framework for generating egocentric videos from a single exocentric input. EgoX leverages the pretrained spatio temporal knowledge of large-scale video diffusion models through lightweight LoRA adaptation and introduces a unified conditioning strategy that combines exocentric and egocentric priors via width and channel wise concatenation. Additionally, a geometry-guided self-attention mechanism selectively attends to spatially relevant regions, ensuring geometric coherence and high visual fidelity. Our approach achieves coherent and realistic egocentric video generation while demonstrating strong scalability and robustness across unseen and in-the-wild videos.