OmniRoam: Deambulación Mundial mediante Generación de Vídeo Panorámico de Largo Horizonte

Resumen

La modelización de escenas mediante modelos de generación de vídeo ha despertado un creciente interés investigador en los últimos años. Sin embargo, la mayoría de los enfoques existentes se basan en modelos de vídeo en perspectiva que sintetizan únicamente observaciones limitadas de una escena, lo que genera problemas de completitud y coherencia global. Proponemos OmniRoam, un marco de generación de vídeo panorámico controlable que aprovecha la amplia cobertura escénica por fotograma y la coherencia espacial y temporal inherente a largo plazo de la representación panorámica, permitiendo el desplazamiento escénico de larga duración. Nuestro marco comienza con una etapa de previsualización, en la que un modelo de generación de vídeo controlado por trayectoria crea una vista rápida de la escena a partir de una imagen o vídeo de entrada dado. Luego, en la etapa de refinamiento, este vídeo se extiende temporalmente y se remuestrea espacialmente para producir vídeos de largo alcance y alta resolución, permitiendo así un desplazamiento por el mundo de alta fidelidad. Para entrenar nuestro modelo, presentamos dos conjuntos de datos de vídeo panorámico que incorporan vídeos tanto sintéticos como capturados en el mundo real. Los experimentos demuestran que nuestro marco supera consistentemente a los métodos más avanzados en términos de calidad visual, controlabilidad y coherencia escénica a largo plazo, tanto cualitativa como cuantitativamente. Además, mostramos varias extensiones de este marco, incluyendo la generación de vídeo en tiempo real y la reconstrucción 3D. El código está disponible en https://github.com/yuhengliu02/OmniRoam.

English

Modeling scenes using video generation models has garnered growing research interest in recent years. However, most existing approaches rely on perspective video models that synthesize only limited observations of a scene, leading to issues of completeness and global consistency. We propose OmniRoam, a controllable panoramic video generation framework that exploits the rich per-frame scene coverage and inherent long-term spatial and temporal consistency of panoramic representation, enabling long-horizon scene wandering. Our framework begins with a preview stage, where a trajectory-controlled video generation model creates a quick overview of the scene from a given input image or video. Then, in the refine stage, this video is temporally extended and spatially upsampled to produce long-range, high-resolution videos, thus enabling high-fidelity world wandering. To train our model, we introduce two panoramic video datasets that incorporate both synthetic and real-world captured videos. Experiments show that our framework consistently outperforms state-of-the-art methods in terms of visual quality, controllability, and long-term scene consistency, both qualitatively and quantitatively. We further showcase several extensions of this framework, including real-time video generation and 3D reconstruction. Code is available at https://github.com/yuhengliu02/OmniRoam.

OmniRoam: Deambulación Mundial mediante Generación de Vídeo Panorámico de Largo Horizonte

OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation

Resumen

Support