OmniRoam : Exploration du monde via la génération de vidéos panoramiques à long horizon

Résumé

La modélisation de scènes à l'aide de modèles de génération vidéo suscite un intérêt croissant dans la recherche ces dernières années. Cependant, la plupart des approches existantes reposent sur des modèles vidéo en perspective qui ne synthétisent que des observations limitées d'une scène, entraînant des problèmes d'exhaustivité et de cohérence globale. Nous proposons OmniRoam, un framework de génération vidéo panoramique contrôlable qui exploite la riche couverture scénique par image et la cohérence spatio-temporelle intrinsèque à long terme de la représentation panoramique, permettant une navigation scénique prolongée. Notre framework commence par une étape de prévisualisation, où un modèle de génération vidéo contrôlé par trajectoire crée un aperçu rapide de la scène à partir d'une image ou vidéo d'entrée. Ensuite, lors de l'étape de raffinement, cette vidéo est temporellement étendue et spatialement suréchantillonnée pour produire des vidéos longue durée et haute résolution, permettant ainsi une exploration mondiale haute fidélité. Pour entraîner notre modèle, nous introduisons deux jeux de données vidéo panoramiques incluant des vidéos de synthèse et des vidéos capturées en conditions réelles. Les expériences montrent que notre framework surpasse constamment les méthodes state-of-the-art en termes de qualité visuelle, de contrôlabilité et de cohérence scénique à long terme, qualitativement et quantitativement. Nous présentons également plusieurs extensions de ce framework, incluant la génération vidéo en temps réel et la reconstruction 3D. Le code est disponible à l'adresse https://github.com/yuhengliu02/OmniRoam.

English

Modeling scenes using video generation models has garnered growing research interest in recent years. However, most existing approaches rely on perspective video models that synthesize only limited observations of a scene, leading to issues of completeness and global consistency. We propose OmniRoam, a controllable panoramic video generation framework that exploits the rich per-frame scene coverage and inherent long-term spatial and temporal consistency of panoramic representation, enabling long-horizon scene wandering. Our framework begins with a preview stage, where a trajectory-controlled video generation model creates a quick overview of the scene from a given input image or video. Then, in the refine stage, this video is temporally extended and spatially upsampled to produce long-range, high-resolution videos, thus enabling high-fidelity world wandering. To train our model, we introduce two panoramic video datasets that incorporate both synthetic and real-world captured videos. Experiments show that our framework consistently outperforms state-of-the-art methods in terms of visual quality, controllability, and long-term scene consistency, both qualitatively and quantitatively. We further showcase several extensions of this framework, including real-time video generation and 3D reconstruction. Code is available at https://github.com/yuhengliu02/OmniRoam.

OmniRoam : Exploration du monde via la génération de vidéos panoramiques à long horizon

OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation

Résumé

Support