CubeComposer : Génération autogressive spatio-temporelle de vidéos 4K 360° à partir de vidéos en perspective

Résumé

La génération de vidéos panoramiques 360° de haute qualité à partir d'une entrée perspective est l'une des applications cruciales pour la réalité virtuelle (RV), où les vidéos haute résolution sont particulièrement importantes pour l'expérience immersive. Les méthodes existantes sont limitées par les contraintes computationnelles des modèles de diffusion standards, ne supportant qu'une génération native en résolution ≤ 1K et reposant sur un suréchantillonnage postérieur sous-optimal pour augmenter la résolution. Nous présentons CubeComposer, un nouveau modèle de diffusion autogressif spatio-temporel qui génère nativement des vidéos 360° en résolution 4K. En décomposant les vidéos en représentations cubemap avec six faces, CubeComposer synthétise le contenu de manière autogressive selon un ordre spatio-temporel bien planifié, réduisant les demandes mémoire tout en permettant une sortie haute résolution. Plus précisément, pour relever les défis de l'autorégression multidimensionnelle, nous proposons : (1) une stratégie autogressive spatio-temporelle qui orchestre la génération vidéo 360° à travers les faces du cube et les fenêtres temporelles pour une synthèse cohérente ; (2) un mécanisme de gestion du contexte des faces du cube, équipé d'une conception d'attention contextuelle éparse pour améliorer l'efficacité ; et (3) des techniques de conscience de la continuité, incluant un codage positionnel adapté au cube, un remplissage et un mélange pour éliminer les coutures aux limites. Des expériences approfondies sur des jeux de données de référence démontrent que CubeComposer surpasse les méthodes de l'état de l'art en résolution native et qualité visuelle, supportant des scénarios d'application pratiques en RV. Page du projet : https://lg-li.github.io/project/cubecomposer

English

Generating high-quality 360° panoramic videos from perspective input is one of the crucial applications for virtual reality (VR), whereby high-resolution videos are especially important for immersive experience. Existing methods are constrained by computational limitations of vanilla diffusion models, only supporting leq 1K resolution native generation and relying on suboptimal post super-resolution to increase resolution. We introduce CubeComposer, a novel spatio-temporal autoregressive diffusion model that natively generates 4K-resolution 360° videos. By decomposing videos into cubemap representations with six faces, CubeComposer autoregressively synthesizes content in a well-planned spatio-temporal order, reducing memory demands while enabling high-resolution output. Specifically, to address challenges in multi-dimensional autoregression, we propose: (1) a spatio-temporal autoregressive strategy that orchestrates 360° video generation across cube faces and time windows for coherent synthesis; (2) a cube face context management mechanism, equipped with a sparse context attention design to improve efficiency; and (3) continuity-aware techniques, including cube-aware positional encoding, padding, and blending to eliminate boundary seams. Extensive experiments on benchmark datasets demonstrate that CubeComposer outperforms state-of-the-art methods in native resolution and visual quality, supporting practical VR application scenarios. Project page: https://lg-li.github.io/project/cubecomposer

CubeComposer : Génération autogressive spatio-temporelle de vidéos 4K 360° à partir de vidéos en perspective

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

Résumé

Support