CubeComposer: 시점 비디오로부터 생성하는 시공간 자기회귀적 4K 360° 비디오 생성
CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video
March 4, 2026
저자: Lingen Li, Guangzhi Wang, Xiaoyu Li, Zhaoyang Zhang, Qi Dou, Jinwei Gu, Tianfan Xue, Ying Shan
cs.AI
초록
시점 입력으로부터 고품질 360° 파노라마 비디오를 생성하는 것은 가상 현실(VR)의 핵심 응용 분야 중 하나로, 고해상도 비디오는 몰입형 경험에 특히 중요합니다. 기존 방법은 기본 디퓨전 모델의 계산적 한계로 인해 기본 생성 해상도가 1K 이하로 제한되고, 해상도를 높이기 위해 차선책인 후처리 초해상도 기술에 의존해야 했습니다. 본 연구에서는 기본적으로 4K 해상도의 360° 비디오를 생성하는 새로운 시공간 자기회귀 디퓨전 모델인 CubeComposer를 소개합니다. 비디오를 6개의 면으로 구성된 큐브맵 표현으로 분해함으로써, CubeComposer는 잘 계획된 시공간 순서로 콘텐츠를 자기회귀적으로 합성하여 메모리 요구량을 줄이면서 고해상도 출력을 가능하게 합니다. 특히 다차원 자기회귀의 과제를 해결하기 위해 다음을 제안합니다: (1) 큐브 면과 시간 창에 걸쳐 일관된 합성을 위한 360° 비디오 생성을 조율하는 시공간 자기회귀 전략; (2) 효율성을 개선하기 위한 희소 컨텍스트 어텐션 설계를 갖춘 큐브 면 컨텍스트 관리 메커니즘; (3) 경계 이음매를 제거하기 위한 큐브 인식 위치 인코딩, 패딩, 블렌딩을 포함한 연속성 인식 기법. 벤치마크 데이터셋에 대한 광범위한 실험을 통해 CubeComposer가 기본 해상도와 시각적 품질 모두에서 최첨단 방법을 능가하며 실용적인 VR 응용 시나리오를 지원함을 입증합니다. 프로젝트 페이지: https://lg-li.github.io/project/cubecomposer
English
Generating high-quality 360° panoramic videos from perspective input is one of the crucial applications for virtual reality (VR), whereby high-resolution videos are especially important for immersive experience. Existing methods are constrained by computational limitations of vanilla diffusion models, only supporting leq 1K resolution native generation and relying on suboptimal post super-resolution to increase resolution. We introduce CubeComposer, a novel spatio-temporal autoregressive diffusion model that natively generates 4K-resolution 360° videos. By decomposing videos into cubemap representations with six faces, CubeComposer autoregressively synthesizes content in a well-planned spatio-temporal order, reducing memory demands while enabling high-resolution output. Specifically, to address challenges in multi-dimensional autoregression, we propose: (1) a spatio-temporal autoregressive strategy that orchestrates 360° video generation across cube faces and time windows for coherent synthesis; (2) a cube face context management mechanism, equipped with a sparse context attention design to improve efficiency; and (3) continuity-aware techniques, including cube-aware positional encoding, padding, and blending to eliminate boundary seams. Extensive experiments on benchmark datasets demonstrate that CubeComposer outperforms state-of-the-art methods in native resolution and visual quality, supporting practical VR application scenarios. Project page: https://lg-li.github.io/project/cubecomposer