ChatPaper.aiChatPaper

EgoX: Генерация эгоцентричного видео из одного эксцентричного видео

EgoX: Egocentric Video Generation from a Single Exocentric Video

December 9, 2025
Авторы: Taewoong Kang, Kinam Kim, Dohyeon Kim, Minho Park, Junha Hyung, Jaegul Choo
cs.AI

Аннотация

Эгоцентрическое восприятие позволяет людям непосредственно переживать и познавать мир с собственной точки зрения. Преобразование экзоцентрических (от третьего лица) видеозаписей в эгоцентрические (от первого лица) открывает новые возможности для иммерсивного понимания, но остаётся крайне сложной задачей из-за значительных вариаций положения камеры и минимального перекрытия полей обзора. Эта задача требует точного сохранения видимого контента при синтезе невидимых областей геометрически согласованным образом. Для её решения мы представляем EgoX — новую архитектуру для генерации эгоцентрических видео на основе единственного экзоцентрического входного сигнала. EgoX использует предварительно обученные пространственно-временные знания моделей диффузии видео большого масштаба через лёгкую адаптацию LoRA и вводит унифицированную стратегию кондиционирования, объединяющую экзоцентрические и эгоцентрические априорные данные посредством конкатенации по ширине и каналам. Кроме того, механизм самовнимания с геометрическим guidance выборочно фокусируется на пространственно релевантных областях, обеспечивая геометрическую согласованность и высокую визуальную достоверность. Наш подход позволяет достигать последовательной и реалистичной генерации эгоцентрического видео, демонстрируя при этом высокую масштабируемость и устойчивость на незнакомых и реальных видеозаписях.
English
Egocentric perception enables humans to experience and understand the world directly from their own point of view. Translating exocentric (third-person) videos into egocentric (first-person) videos opens up new possibilities for immersive understanding but remains highly challenging due to extreme camera pose variations and minimal view overlap. This task requires faithfully preserving visible content while synthesizing unseen regions in a geometrically consistent manner. To achieve this, we present EgoX, a novel framework for generating egocentric videos from a single exocentric input. EgoX leverages the pretrained spatio temporal knowledge of large-scale video diffusion models through lightweight LoRA adaptation and introduces a unified conditioning strategy that combines exocentric and egocentric priors via width and channel wise concatenation. Additionally, a geometry-guided self-attention mechanism selectively attends to spatially relevant regions, ensuring geometric coherence and high visual fidelity. Our approach achieves coherent and realistic egocentric video generation while demonstrating strong scalability and robustness across unseen and in-the-wild videos.
PDF852December 17, 2025