OmniRoam: Vagabondaggio Mondiale tramite Generazione di Video Panoramici a Lungo Orizzonte

Abstract

La modellazione di scene mediante modelli di generazione video ha attirato un crescente interesse di ricerca negli ultimi anni. Tuttavia, la maggior parte degli approcci esistenti si basa su modelli video prospettici che sintetizzano solo osservazioni limitate di una scena, portando a problemi di completezza e coerenza globale. Proponiamo OmniRoam, un framework controllabile per la generazione di video panoramici che sfrutta la ricca copertura scenica per fotogramma e l'intrinseca coerenza spaziale e temporale a lungo termine della rappresentazione panoramica, abilitando l'esplorazione scenica a lungo termine. Il nostro framework inizia con una fase di anteprima, in cui un modello di generazione video controllato da traiettorie crea una panoramica rapida della scena a partire da un'immagine o un video di input. Successivamente, nella fase di raffinamento, questo video viene esteso temporalmente e campionato spazialmente per produrre video a lungo raggio e ad alta risoluzione, consentendo così un'esplorazione del mondo ad alta fedeltà. Per addestrare il nostro modello, introduciamo due dataset di video panoramici che includono video sia sintetici che catturati nel mondo reale. Gli esperimenti mostrano che il nostro framework supera costantemente i metodi allo stato dell'arte in termini di qualità visiva, controllabilità e coerenza scenica a lungo termine, sia qualitativamente che quantitativamente. Mostriamo inoltre diverse estensioni di questo framework, inclusa la generazione video in tempo reale e la ricostruzione 3D. Il codice è disponibile all'indirizzo https://github.com/yuhengliu02/OmniRoam.

English

Modeling scenes using video generation models has garnered growing research interest in recent years. However, most existing approaches rely on perspective video models that synthesize only limited observations of a scene, leading to issues of completeness and global consistency. We propose OmniRoam, a controllable panoramic video generation framework that exploits the rich per-frame scene coverage and inherent long-term spatial and temporal consistency of panoramic representation, enabling long-horizon scene wandering. Our framework begins with a preview stage, where a trajectory-controlled video generation model creates a quick overview of the scene from a given input image or video. Then, in the refine stage, this video is temporally extended and spatially upsampled to produce long-range, high-resolution videos, thus enabling high-fidelity world wandering. To train our model, we introduce two panoramic video datasets that incorporate both synthetic and real-world captured videos. Experiments show that our framework consistently outperforms state-of-the-art methods in terms of visual quality, controllability, and long-term scene consistency, both qualitatively and quantitatively. We further showcase several extensions of this framework, including real-time video generation and 3D reconstruction. Code is available at https://github.com/yuhengliu02/OmniRoam.

OmniRoam: Vagabondaggio Mondiale tramite Generazione di Video Panoramici a Lungo Orizzonte

OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation

Abstract

Support