OmniRoam: Wereldwandeling via Lange-Horizon Panoramische Videogeneratie

Samenvatting

Het modelleren van scènes met behulp van videogeneratiemodellen heeft de afgelopen jaren een groeiende onderzoeksinteresse gegenereerd. De meeste bestaande benaderingen zijn echter gebaseerd op perspectiefvideomodellen die slechts beperkte observaties van een scène synthetiseren, wat leidt tot problemen met volledigheid en globale consistentie. Wij stellen OmniRoam voor, een controleerbaar panoramisch videogeneratieraamwerk dat gebruikmaakt van de rijke scènedekking per frame en de inherente langetermijnconsistentie in ruimte en tijd van panoramische representatie, waardoor langdurige scènedoorwandeling mogelijk wordt. Ons raamwerk begint met een voorvertoningsfase, waarin een trajectgestuurd videogeneratiemodel een snel overzicht van de scène creëert op basis van een gegeven invoerbeeld of -video. Vervolgens wordt deze video in de verfijningsfase temporeel uitgebreid en ruimtelijk opgeschaald om langdurige, hoogwaardige video's te produceren, waardoor hoogwaardige wereldwandeling mogelijk wordt. Voor de training van ons model introduceren we twee panoramische videodatasets die zowel synthetische als in de echte wereld vastgelegde video's bevatten. Experimenten tonen aan dat ons raamwerk consequent state-of-the-art methoden overtreft op het gebied van visuele kwaliteit, bestuurbaarheid en langetermijnscèneconsistentie, zowel kwalitatief als kwantitatief. We demonstreren verder verschillende uitbreidingen van dit raamwerk, waaronder real-time videogeneratie en 3D-reconstructie. Code is beschikbaar op https://github.com/yuhengliu02/OmniRoam.

English

Modeling scenes using video generation models has garnered growing research interest in recent years. However, most existing approaches rely on perspective video models that synthesize only limited observations of a scene, leading to issues of completeness and global consistency. We propose OmniRoam, a controllable panoramic video generation framework that exploits the rich per-frame scene coverage and inherent long-term spatial and temporal consistency of panoramic representation, enabling long-horizon scene wandering. Our framework begins with a preview stage, where a trajectory-controlled video generation model creates a quick overview of the scene from a given input image or video. Then, in the refine stage, this video is temporally extended and spatially upsampled to produce long-range, high-resolution videos, thus enabling high-fidelity world wandering. To train our model, we introduce two panoramic video datasets that incorporate both synthetic and real-world captured videos. Experiments show that our framework consistently outperforms state-of-the-art methods in terms of visual quality, controllability, and long-term scene consistency, both qualitatively and quantitatively. We further showcase several extensions of this framework, including real-time video generation and 3D reconstruction. Code is available at https://github.com/yuhengliu02/OmniRoam.

OmniRoam: Wereldwandeling via Lange-Horizon Panoramische Videogeneratie

OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation

Samenvatting

Support