ChatPaper.aiChatPaper

OmniRoam: 장기 범위 파노라마 비디오 생성을 통한 세계 여행

OmniRoam: World Wandering via Long-Horizon Panoramic Video Generation

March 31, 2026
저자: Yuheng Liu, Xin Lin, Xinke Li, Baihan Yang, Chen Wang, Kalyan Sunkavalli, Yannick Hold-Geoffroy, Hao Tan, Kai Zhang, Xiaohui Xie, Zifan Shi, Yiwei Hu
cs.AI

초록

비디오 생성 모델을 이용한 장면 모델링은 최근 몇 년간 연구 관심이 꾸준히 증가해 왔습니다. 그러나 기존 대부분의 접근법은 장면의 제한된 관측만을 합성하는 원근 비디오 모델에 의존하여, 완전성과 전역 일관성 문제가 발생합니다. 본 연구에서는 파노라믹 표현의 풍부한 프레임별 장면 커버리지와 내재된 장기적 공간-시간 일관성을 활용하여 장기적 장면 배회를 가능하게 하는 제어 가능한 파노라믹 비디오 생성 프레임워크인 OmniRoam을 제안합니다. 우리의 프레임워크는 주어진 입력 이미지나 비디오로부터 궤적 제어 비디오 생성 모델이 장면의 빠른 개요를 생성하는 프리뷰 단계로 시작합니다. 이후 정제 단계에서 이 비디오는 시간적으로 확장되고 공간적으로 업샘플링되어 장기적 고해상도 비디오를 생성함으로써 높은 충실도의 세계 배회를 가능하게 합니다. 모델 학습을 위해 합성 및 실제 촬영 비디오를 모두 포함하는 두 가지 파노라믹 비디오 데이터셋을 도입했습니다. 실험 결과, 우리의 프레임워크는 시각적 품질, 제어 가능성, 장기적 장면 일관성 측면에서 정성적 및 정량적으로 최신 방법들을 지속적으로 능가하는 것으로 나타났습니다. 또한 실시간 비디오 생성 및 3D 재구성을 포함한 이 프레임워크의 여러 확장 기능을 추가로 보여줍니다. 코드는 https://github.com/yuhengliu02/OmniRoam에서 확인할 수 있습니다.
English
Modeling scenes using video generation models has garnered growing research interest in recent years. However, most existing approaches rely on perspective video models that synthesize only limited observations of a scene, leading to issues of completeness and global consistency. We propose OmniRoam, a controllable panoramic video generation framework that exploits the rich per-frame scene coverage and inherent long-term spatial and temporal consistency of panoramic representation, enabling long-horizon scene wandering. Our framework begins with a preview stage, where a trajectory-controlled video generation model creates a quick overview of the scene from a given input image or video. Then, in the refine stage, this video is temporally extended and spatially upsampled to produce long-range, high-resolution videos, thus enabling high-fidelity world wandering. To train our model, we introduce two panoramic video datasets that incorporate both synthetic and real-world captured videos. Experiments show that our framework consistently outperforms state-of-the-art methods in terms of visual quality, controllability, and long-term scene consistency, both qualitatively and quantitatively. We further showcase several extensions of this framework, including real-time video generation and 3D reconstruction. Code is available at https://github.com/yuhengliu02/OmniRoam.
PDF01April 2, 2026