OmniRoam: Navegação Mundial via Geração de Vídeo Panorâmico de Longo Horizonte

Resumo

A modelagem de cenas usando modelos de geração de vídeo tem despertado um crescente interesse de pesquisa nos últimos anos. No entanto, a maioria das abordagens existentes depende de modelos de vídeo em perspectiva que sintetizam apenas observações limitadas de uma cena, levando a problemas de completude e consistência global. Propomos o OmniRoam, uma estrutura de geração de vídeo panorâmico controlável que explora a rica cobertura de cena por quadro e a consistência espacial e temporal de longo prazo inerente à representação panorâmica, permitindo uma exploração de cena de longo horizonte. Nossa estrutura começa com uma fase de pré-visualização, na qual um modelo de geração de vídeo controlado por trajetória cria uma visão geral rápida da cena a partir de uma imagem ou vídeo de entrada. Em seguida, na fase de refinamento, este vídeo é estendido temporalmente e ampliado espacialmente para produzir vídeos de longo alcance e alta resolução, permitindo assim uma exploração do mundo de alta fidelidade. Para treinar nosso modelo, introduzimos dois conjuntos de dados de vídeo panorâmico que incorporam vídeos capturados sintéticos e do mundo real. Experimentos mostram que nossa estrutura supera consistentemente os métodos state-of-the-art em termos de qualidade visual, controlabilidade e consistência de cena de longo prazo, tanto qualitativa quanto quantitativamente. Demonstramos ainda várias extensões desta estrutura, incluindo geração de vídeo em tempo real e reconstrução 3D. O código está disponível em https://github.com/yuhengliu02/OmniRoam.

English

Modeling scenes using video generation models has garnered growing research interest in recent years. However, most existing approaches rely on perspective video models that synthesize only limited observations of a scene, leading to issues of completeness and global consistency. We propose OmniRoam, a controllable panoramic video generation framework that exploits the rich per-frame scene coverage and inherent long-term spatial and temporal consistency of panoramic representation, enabling long-horizon scene wandering. Our framework begins with a preview stage, where a trajectory-controlled video generation model creates a quick overview of the scene from a given input image or video. Then, in the refine stage, this video is temporally extended and spatially upsampled to produce long-range, high-resolution videos, thus enabling high-fidelity world wandering. To train our model, we introduce two panoramic video datasets that incorporate both synthetic and real-world captured videos. Experiments show that our framework consistently outperforms state-of-the-art methods in terms of visual quality, controllability, and long-term scene consistency, both qualitatively and quantitatively. We further showcase several extensions of this framework, including real-time video generation and 3D reconstruction. Code is available at https://github.com/yuhengliu02/OmniRoam.

OmniRoam: Navegação Mundial via Geração de Vídeo Panorâmico de Longo Horizonte

OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation

Resumo

Support