EgoX: Geração de Vídeo Egocêntrico a Partir de um Único Vídeo Exocêntrico

Resumo

A percepção egocêntrica permite que os seres humanos experienciem e compreendam o mundo diretamente a partir do seu próprio ponto de vista. A tradução de vídeos exocêntricos (terceira pessoa) em vídeos egocêntricos (primeira pessoa) abre novas possibilidades para uma compreensão imersiva, mas permanece um grande desafio devido às variações extremas na pose da câmera e à sobreposição mínima de visão. Esta tarefa requer a preservação fiel do conteúdo visível, enquanto sintetiza regiões não visíveis de uma forma geometricamente consistente. Para alcançar este objetivo, apresentamos o EgoX, uma nova estrutura para geração de vídeos egocêntricos a partir de uma única entrada exocêntrica. O EgoX aproveita o conhecimento espaço-temporal pré-treinado de modelos de difusão de vídeo em larga escala através de uma adaptação leve por LoRA e introduz uma estratégia de condicionamento unificada que combina *priors* exocêntricos e egocêntricos via concatenação por largura e canal. Adicionalmente, um mecanismo de autoatenção guiado por geometria atende seletivamente a regiões espacialmente relevantes, garantindo coerência geométrica e alta fidelidade visual. A nossa abordagem alcança uma geração de vídeo egocêntrica coerente e realista, demonstrando ao mesmo tempo forte escalabilidade e robustez em vídeos não vistos e em cenários do mundo real.

English

Egocentric perception enables humans to experience and understand the world directly from their own point of view. Translating exocentric (third-person) videos into egocentric (first-person) videos opens up new possibilities for immersive understanding but remains highly challenging due to extreme camera pose variations and minimal view overlap. This task requires faithfully preserving visible content while synthesizing unseen regions in a geometrically consistent manner. To achieve this, we present EgoX, a novel framework for generating egocentric videos from a single exocentric input. EgoX leverages the pretrained spatio temporal knowledge of large-scale video diffusion models through lightweight LoRA adaptation and introduces a unified conditioning strategy that combines exocentric and egocentric priors via width and channel wise concatenation. Additionally, a geometry-guided self-attention mechanism selectively attends to spatially relevant regions, ensuring geometric coherence and high visual fidelity. Our approach achieves coherent and realistic egocentric video generation while demonstrating strong scalability and robustness across unseen and in-the-wild videos.

EgoX: Geração de Vídeo Egocêntrico a Partir de um Único Vídeo Exocêntrico

EgoX: Egocentric Video Generation from a Single Exocentric Video

Resumo

Support