CubeComposer: Geração Autoregressiva Espaço-Temporal de Vídeo 4K 360° a partir de Vídeo em Perspectiva

Resumo

A geração de vídeos panorâmicos 360° de alta qualidade a partir de entrada em perspectiva é uma das aplicações cruciais para a realidade virtual (VR), sendo que vídeos de alta resolução são especialmente importantes para a experiência imersiva. Os métodos existentes são limitados pelas restrições computacionais dos modelos de difusão convencionais, suportando apenas geração nativa em resolução ≤ 1K e dependendo de super-resolução pós-processada subótima para aumentar a resolução. Apresentamos o CubeComposer, um novo modelo de difusão autoregressivo espaço-temporal que gera nativamente vídeos 360° em resolução 4K. Ao decompor os vídeos em representações de cubemap com seis faces, o CubeComposer sintetiza o conteúdo de forma autoregressiva em uma ordem espaço-temporal bem planejada, reduzindo as demandas de memória enquanto permite saída de alta resolução. Especificamente, para enfrentar os desafios da autoregressão multidimensional, propomos: (1) uma estratégia autoregressiva espaço-temporal que orquestra a geração de vídeos 360° através das faces do cubo e janelas temporais para síntese coerente; (2) um mecanismo de gestão de contexto das faces do cubo, equipado com um desenho de atenção esparsa de contexto para melhorar a eficiência; e (3) técnicas conscientes da continuidade, incluindo codificação posicional consciente do cubo, preenchimento e mesclagem para eliminar emendas nas fronteiras. Experimentos extensivos em conjuntos de dados de referência demonstram que o CubeComposer supera os métodos state-of-the-art em resolução nativa e qualidade visual, suportando cenários práticos de aplicação em VR. Página do projeto: https://lg-li.github.io/project/cubecomposer

English

Generating high-quality 360° panoramic videos from perspective input is one of the crucial applications for virtual reality (VR), whereby high-resolution videos are especially important for immersive experience. Existing methods are constrained by computational limitations of vanilla diffusion models, only supporting leq 1K resolution native generation and relying on suboptimal post super-resolution to increase resolution. We introduce CubeComposer, a novel spatio-temporal autoregressive diffusion model that natively generates 4K-resolution 360° videos. By decomposing videos into cubemap representations with six faces, CubeComposer autoregressively synthesizes content in a well-planned spatio-temporal order, reducing memory demands while enabling high-resolution output. Specifically, to address challenges in multi-dimensional autoregression, we propose: (1) a spatio-temporal autoregressive strategy that orchestrates 360° video generation across cube faces and time windows for coherent synthesis; (2) a cube face context management mechanism, equipped with a sparse context attention design to improve efficiency; and (3) continuity-aware techniques, including cube-aware positional encoding, padding, and blending to eliminate boundary seams. Extensive experiments on benchmark datasets demonstrate that CubeComposer outperforms state-of-the-art methods in native resolution and visual quality, supporting practical VR application scenarios. Project page: https://lg-li.github.io/project/cubecomposer

CubeComposer: Geração Autoregressiva Espaço-Temporal de Vídeo 4K 360° a partir de Vídeo em Perspectiva

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

Resumo

Support