CubeComposer: Generación Autoregresiva Espacio-Temporal de Video 4K 360° a partir de Video en Perspectiva

Resumen

La generación de vídeos panorámicos 360° de alta calidad a partir de entradas en perspectiva es una de las aplicaciones cruciales para la realidad virtual (RV), donde los vídeos de alta resolución son especialmente importantes para la experiencia inmersiva. Los métodos existentes están limitados por las restricciones computacionales de los modelos de difusión convencionales, que solo admiten generación nativa con resoluciones ≤ 1K y dependen de una super-resolución posterior subóptima para aumentar la resolución. Presentamos CubeComposer, un novedoso modelo de difusión autorregresivo espacio-temporal que genera nativamente vídeos 360° en resolución 4K. Al descomponer los vídeos en representaciones de cubemap con seis caras, CubeComposer sintetiza contenido de forma autorregresiva en un orden espacio-temporal planificado, reduciendo las demandas de memoria mientras permite una salida de alta resolución. Específicamente, para abordar los desafíos de la autorregresión multidimensional, proponemos: (1) una estrategia autorregresiva espacio-temporal que orquesta la generación de vídeos 360° a través de las caras del cubo y ventanas temporales para una síntesis coherente; (2) un mecanismo de gestión de contexto de caras del cubo, equipado con un diseño de atención de contexto disperso para mejorar la eficiencia; y (3) técnicas conscientes de la continuidad, que incluyen codificación posicional, relleno y fusión conscientes del cubo para eliminar las costuras en los límites. Experimentos exhaustivos en conjuntos de datos de referencia demuestran que CubeComposer supera a los métodos state-of-the-art en resolución nativa y calidad visual, apoyando escenarios prácticos de aplicación en RV. Página del proyecto: https://lg-li.github.io/project/cubecomposer

English

Generating high-quality 360° panoramic videos from perspective input is one of the crucial applications for virtual reality (VR), whereby high-resolution videos are especially important for immersive experience. Existing methods are constrained by computational limitations of vanilla diffusion models, only supporting leq 1K resolution native generation and relying on suboptimal post super-resolution to increase resolution. We introduce CubeComposer, a novel spatio-temporal autoregressive diffusion model that natively generates 4K-resolution 360° videos. By decomposing videos into cubemap representations with six faces, CubeComposer autoregressively synthesizes content in a well-planned spatio-temporal order, reducing memory demands while enabling high-resolution output. Specifically, to address challenges in multi-dimensional autoregression, we propose: (1) a spatio-temporal autoregressive strategy that orchestrates 360° video generation across cube faces and time windows for coherent synthesis; (2) a cube face context management mechanism, equipped with a sparse context attention design to improve efficiency; and (3) continuity-aware techniques, including cube-aware positional encoding, padding, and blending to eliminate boundary seams. Extensive experiments on benchmark datasets demonstrate that CubeComposer outperforms state-of-the-art methods in native resolution and visual quality, supporting practical VR application scenarios. Project page: https://lg-li.github.io/project/cubecomposer

CubeComposer: Generación Autoregresiva Espacio-Temporal de Video 4K 360° a partir de Video en Perspectiva

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

Resumen

Support