OmniRoam: Путешествие по миру посредством генерации длинных панорамных видео

Аннотация

Моделирование сцен с использованием моделей генерации видео вызывает растущий исследовательский интерес в последние годы. Однако большинство существующих подходов полагаются на перспективные видео-модели, которые синтезируют лишь ограниченные наблюдения сцены, что приводит к проблемам полноты и глобальной согласованности. Мы предлагаем OmniRoam — управляемую панорамную систему генерации видео, которая использует богатое покрытие сцены в каждом кадре и присущую панорамному представлению долгосрочную пространственно-временную согласованность, обеспечивая длительное виртуальное перемещение по сцене. Наш фреймворк начинается с этапа предварительного просмотра, на котором управляемая траекторией модель генерации видео создает краткий обзор сцены на основе заданного входного изображения или видео. Затем на этапе уточнения это видео временно расширяется и пространственно увеличивается для создания длительных видео высокого разрешения, что позволяет осуществлять высококачественное виртуальное путешествие по миру. Для обучения нашей модели мы представляем два набора панорамных видео, включающих как синтетические, так и снятые в реальном мире видеозаписи. Эксперименты показывают, что наш фреймворк последовательно превосходит современные методы по визуальному качеству, управляемости и долгосрочной согласованности сцены как качественно, так и количественно. Мы также демонстрируем несколько расширений данной системы, включая генерацию видео в реальном времени и 3D-реконструкцию. Код доступен по адресу https://github.com/yuhengliu02/OmniRoam.

English

Modeling scenes using video generation models has garnered growing research interest in recent years. However, most existing approaches rely on perspective video models that synthesize only limited observations of a scene, leading to issues of completeness and global consistency. We propose OmniRoam, a controllable panoramic video generation framework that exploits the rich per-frame scene coverage and inherent long-term spatial and temporal consistency of panoramic representation, enabling long-horizon scene wandering. Our framework begins with a preview stage, where a trajectory-controlled video generation model creates a quick overview of the scene from a given input image or video. Then, in the refine stage, this video is temporally extended and spatially upsampled to produce long-range, high-resolution videos, thus enabling high-fidelity world wandering. To train our model, we introduce two panoramic video datasets that incorporate both synthetic and real-world captured videos. Experiments show that our framework consistently outperforms state-of-the-art methods in terms of visual quality, controllability, and long-term scene consistency, both qualitatively and quantitatively. We further showcase several extensions of this framework, including real-time video generation and 3D reconstruction. Code is available at https://github.com/yuhengliu02/OmniRoam.

OmniRoam: Путешествие по миру посредством генерации длинных панорамных видео

OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation

Аннотация

Support