OmniRoam: Weltweites Wandern durch langfristige Panorama-Videogenerierung

Zusammenfassung

Die Modellierung von Szenen mithilfe von Videogenerierungsmodellen hat in den letzten Jahren ein wachsendes Forschungsinteresse geweckt. Die meisten bestehenden Ansätze stützen sich jedoch auf perspektivische Videomodelle, die nur begrenzte Beobachtungen einer Szene synthetisieren, was zu Problemen mit Vollständigkeit und globaler Konsistenz führt. Wir stellen OmniRoam vor, ein kontrollierbares Panorama-Videogenerierungsframework, das die reichhaltige Szenenabdeckung pro Frame und die inhärente langfristige räumliche und zeitliche Konsistenz der Panoramadarstellung nutzt, um langanhaltendes Szenenwandern zu ermöglichen. Unser Framework beginnt mit einer Vorschauphase, in der ein trajektoriengesteuertes Videogenerierungsmodell einen schnellen Überblick über die Szene aus einem gegebenen Eingabebild oder -video erstellt. Anschließend wird dieses Video in der Verfeinerungsphase zeitlich erweitert und räumlich hochskaliert, um langstreckige, hochauflösende Videos zu erzeugen und so hochwertiges Weltwandern zu ermöglichen. Zur Ausbildung unseres Modells führen wir zwei Panorama-Videodatensätze ein, die sowohl synthetische als auch in der realen Welt aufgezeichnete Videos enthalten. Experimente zeigen, dass unser Framework state-of-the-art-Methoden in Bezug auf visuelle Qualität, Steuerbarkeit und langfristige Szenenkonsistenz durchgängig sowohl qualitativ als auch quantitativ übertrifft. Wir demonstrieren weiterhin mehrere Erweiterungen dieses Frameworks, einschließlich Echtzeit-Videogenerierung und 3D-Rekonstruktion. Der Code ist verfügbar unter https://github.com/yuhengliu02/OmniRoam.

English

Modeling scenes using video generation models has garnered growing research interest in recent years. However, most existing approaches rely on perspective video models that synthesize only limited observations of a scene, leading to issues of completeness and global consistency. We propose OmniRoam, a controllable panoramic video generation framework that exploits the rich per-frame scene coverage and inherent long-term spatial and temporal consistency of panoramic representation, enabling long-horizon scene wandering. Our framework begins with a preview stage, where a trajectory-controlled video generation model creates a quick overview of the scene from a given input image or video. Then, in the refine stage, this video is temporally extended and spatially upsampled to produce long-range, high-resolution videos, thus enabling high-fidelity world wandering. To train our model, we introduce two panoramic video datasets that incorporate both synthetic and real-world captured videos. Experiments show that our framework consistently outperforms state-of-the-art methods in terms of visual quality, controllability, and long-term scene consistency, both qualitatively and quantitatively. We further showcase several extensions of this framework, including real-time video generation and 3D reconstruction. Code is available at https://github.com/yuhengliu02/OmniRoam.

OmniRoam: Weltweites Wandern durch langfristige Panorama-Videogenerierung

OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation

Zusammenfassung

Support