CubeComposer: Generazione Autoregressiva Spazio-Temporale di Video 4K 360° da Video in Prospettiva

Abstract

La generazione di video panoramici 360° di alta qualità a partire da input prospettici rappresenta una delle applicazioni cruciali per la realtà virtuale (VR), dove video ad alta risoluzione sono particolarmente importanti per l'esperienza immersiva. I metodi esistenti sono limitati dalle restrizioni computazionali dei modelli diffusion vanilla, supportando solo la generazione nativa a risoluzione ≤ 1K e basandosi su tecniche subottimali di super-risoluzione postuma per aumentare la risoluzione. Introduciamo CubeComposer, un innovativo modello diffusion autoregressivo spaziotemporale che genera nativamente video 360° a risoluzione 4K. Scomponendo i video in rappresentazioni a cubemap con sei facce, CubeComposer sintetizza il contenuto in modo autoregressivo secondo un ordinamento spaziotemporale ben pianificato, riducendo le richieste di memoria mentre abilita output ad alta risoluzione. Nello specifico, per affrontare le sfide dell'autoregressione multidimensionale, proponiamo: (1) una strategia autoregressiva spaziotemporale che orchestra la generazione del video 360° attraverso le facce del cubo e le finestre temporali per una sintesi coerente; (2) un meccanismo di gestione del contesto delle facce del cubo, dotato di un design di attenzione contextuale sparsa per migliorare l'efficienza; e (3) tecniche continuity-aware, inclusi positional encoding, padding e blending cube-aware per eliminare le discontinuità ai bordi. Esperimenti estensivi su dataset di benchmark dimostrano che CubeComposer supera i metodi state-of-the-art in termini di risoluzione nativa e qualità visiva, supportando scenari applicativi pratici per la VR. Pagina del progetto: https://lg-li.github.io/project/cubecomposer

English

Generating high-quality 360° panoramic videos from perspective input is one of the crucial applications for virtual reality (VR), whereby high-resolution videos are especially important for immersive experience. Existing methods are constrained by computational limitations of vanilla diffusion models, only supporting leq 1K resolution native generation and relying on suboptimal post super-resolution to increase resolution. We introduce CubeComposer, a novel spatio-temporal autoregressive diffusion model that natively generates 4K-resolution 360° videos. By decomposing videos into cubemap representations with six faces, CubeComposer autoregressively synthesizes content in a well-planned spatio-temporal order, reducing memory demands while enabling high-resolution output. Specifically, to address challenges in multi-dimensional autoregression, we propose: (1) a spatio-temporal autoregressive strategy that orchestrates 360° video generation across cube faces and time windows for coherent synthesis; (2) a cube face context management mechanism, equipped with a sparse context attention design to improve efficiency; and (3) continuity-aware techniques, including cube-aware positional encoding, padding, and blending to eliminate boundary seams. Extensive experiments on benchmark datasets demonstrate that CubeComposer outperforms state-of-the-art methods in native resolution and visual quality, supporting practical VR application scenarios. Project page: https://lg-li.github.io/project/cubecomposer

CubeComposer: Generazione Autoregressiva Spazio-Temporale di Video 4K 360° da Video in Prospettiva

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

Abstract

Support