EgoX: 単一のエクソセントリック映像からのエゴセントリック映像生成
EgoX: Egocentric Video Generation from a Single Exocentric Video
December 9, 2025
著者: Taewoong Kang, Kinam Kim, Dohyeon Kim, Minho Park, Junha Hyung, Jaegul Choo
cs.AI
要旨
エゴセントリック知覚は、人間が自身の視点から世界を直接体験し理解することを可能にします。エキソセントリック(三人称)映像をエゴセントリック(一人称)映像へ変換することは、没入型理解への新たな可能性を開くものの、極端なカメラ姿勢の変化と視野の重複の少なさから、依然として非常に困難な課題です。このタスクには、可視領域の内容を忠実に保ちつつ、未観測領域を幾何学的に一貫した方法で合成することが求められます。これを実現するため、単一のエキソントリック入力からエゴセントリック映像を生成する新規フレームワーク「EgoX」を提案します。EgoXは、大規模ビデオ拡散モデルの事前学習時空間知識を軽量なLoRA適応により活用し、幅方向とチャネル方向の連結を介してエキソセントリックとエゴセントリックの事前知識を統合する条件付け戦略を導入します。さらに、幾何学誘導型セルフアテンション機構が空間的に関連する領域を選択的に注目し、幾何学的整合性と高視覚忠実度を保証します。本手法は、未見映像や実世界映像に対しても強力な拡張性と頑健性を示しつつ、一貫性のある現実的なエゴセントリック映像生成を実現します。
English
Egocentric perception enables humans to experience and understand the world directly from their own point of view. Translating exocentric (third-person) videos into egocentric (first-person) videos opens up new possibilities for immersive understanding but remains highly challenging due to extreme camera pose variations and minimal view overlap. This task requires faithfully preserving visible content while synthesizing unseen regions in a geometrically consistent manner. To achieve this, we present EgoX, a novel framework for generating egocentric videos from a single exocentric input. EgoX leverages the pretrained spatio temporal knowledge of large-scale video diffusion models through lightweight LoRA adaptation and introduces a unified conditioning strategy that combines exocentric and egocentric priors via width and channel wise concatenation. Additionally, a geometry-guided self-attention mechanism selectively attends to spatially relevant regions, ensuring geometric coherence and high visual fidelity. Our approach achieves coherent and realistic egocentric video generation while demonstrating strong scalability and robustness across unseen and in-the-wild videos.