EgoX: Generazione di Video Egocentrici a Partire da un Singolo Video Esocentrico
EgoX: Egocentric Video Generation from a Single Exocentric Video
December 9, 2025
Autori: Taewoong Kang, Kinam Kim, Dohyeon Kim, Minho Park, Junha Hyung, Jaegul Choo
cs.AI
Abstract
La percezione egocentrica consente agli esseri umani di esperire e comprendere il mondo direttamente dal proprio punto di vista. La traduzione di video eterocentrici (in terza persona) in video egocentrici (in prima persona) apre nuove possibilità per una comprensione immersiva, ma rimane estremamente impegnativa a causa delle estreme variazioni della posa della telecamera e della sovrapposizione minima delle visuali. Questo compito richiede di preservare fedelmente il contenuto visibile sintetizzando al contempo le regioni non visibili in modo geometricamente coerente. Per raggiungere questo obiettivo, presentiamo EgoX, un framework innovativo per la generazione di video egocentrici a partire da un singolo input eterocentrico. EgoX sfrutta la conoscenza spaziotemporale preaddestrata dei modelli di diffusione video su larga scala attraverso un adattamento LoRA leggero e introduce una strategia di condizionamento unificata che combina prior eterocentrici ed egocentrici mediante concatenazione lungo le dimensioni di larghezza e canale. Inoltre, un meccanismo di self-attention guidato dalla geometria seleziona dinamicamente le regioni spazialmente rilevanti, garantendo coerenza geometrica e alta fedeltà visiva. Il nostro approccio consente una generazione di video egocentrici coerenti e realistici, dimostrando al contempo una forte scalabilità e robustezza su video non visti e in contesti non controllati.
English
Egocentric perception enables humans to experience and understand the world directly from their own point of view. Translating exocentric (third-person) videos into egocentric (first-person) videos opens up new possibilities for immersive understanding but remains highly challenging due to extreme camera pose variations and minimal view overlap. This task requires faithfully preserving visible content while synthesizing unseen regions in a geometrically consistent manner. To achieve this, we present EgoX, a novel framework for generating egocentric videos from a single exocentric input. EgoX leverages the pretrained spatio temporal knowledge of large-scale video diffusion models through lightweight LoRA adaptation and introduces a unified conditioning strategy that combines exocentric and egocentric priors via width and channel wise concatenation. Additionally, a geometry-guided self-attention mechanism selectively attends to spatially relevant regions, ensuring geometric coherence and high visual fidelity. Our approach achieves coherent and realistic egocentric video generation while demonstrating strong scalability and robustness across unseen and in-the-wild videos.