CubeComposer: Räumlich-zeitliche autoregressive 4K-360°-Videogenerierung aus Perspektivvideos
CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video
March 4, 2026
Autoren: Lingen Li, Guangzhi Wang, Xiaoyu Li, Zhaoyang Zhang, Qi Dou, Jinwei Gu, Tianfan Xue, Ying Shan
cs.AI
Zusammenfassung
Die Erzeugung hochwertiger 360°-Panoramavideos aus perspektivischen Eingabedaten ist eine der entscheidenden Anwendungen für Virtual Reality (VR), wobei hochauflösende Videos besonders wichtig für ein immersives Erlebnis sind. Bestehende Methoden sind durch die Rechenbeschränkungen herkömmlicher Diffusionsmodelle eingeschränkt und unterstützen nativ nur Auflösungen von ≤1K, wobei sie auf suboptimale Nachverarbeitung durch Super-Resolution zur Erhöhung der Auflösung angewiesen sind. Wir stellen CubeComposer vor, ein neuartiges räumlich-zeitliches autoregressives Diffusionsmodell, das nativ 4K-auflösende 360°-Videos erzeugt. Durch die Zerlegung von Videos in Würfelprojektionen mit sechs Seiten synthetisiert CubeComposer Inhalte autoregressiv in einer wohlgeplanten räumlich-zeitlichen Reihenfolge, was den Speicherbedarf reduziert und gleichzeitig hochauflösende Ausgaben ermöglicht. Um die Herausforderungen der mehrdimensionalen Autoregression zu bewältigen, schlagen wir insbesondere vor: (1) eine räumlich-zeitliche autoregressive Strategie, die die 360°-Videogenerierung über Würfelseiten und Zeitfenster hinweg für eine kohärente Synthese orchestriert; (2) einen Würfelseiten-Kontextverwaltungsmechanismus, der mit einem sparsamen Kontext-Attentionsdesign für verbesserte Effizienz ausgestattet ist; und (3) kontinuitätsbewusste Techniken, einschließlich würfelbewusster Positionskodierung, Auffüllung und Überblendung, um Grenznahtstellen zu beseitigen. Umfangreiche Experimente mit Benchmark-Datensätzen zeigen, dass CubeComposer state-of-the-art-Methoden in nativer Auflösung und visueller Qualität übertrifft und praktische VR-Anwendungsszenarien unterstützt. Projektseite: https://lg-li.github.io/project/cubecomposer
English
Generating high-quality 360° panoramic videos from perspective input is one of the crucial applications for virtual reality (VR), whereby high-resolution videos are especially important for immersive experience. Existing methods are constrained by computational limitations of vanilla diffusion models, only supporting leq 1K resolution native generation and relying on suboptimal post super-resolution to increase resolution. We introduce CubeComposer, a novel spatio-temporal autoregressive diffusion model that natively generates 4K-resolution 360° videos. By decomposing videos into cubemap representations with six faces, CubeComposer autoregressively synthesizes content in a well-planned spatio-temporal order, reducing memory demands while enabling high-resolution output. Specifically, to address challenges in multi-dimensional autoregression, we propose: (1) a spatio-temporal autoregressive strategy that orchestrates 360° video generation across cube faces and time windows for coherent synthesis; (2) a cube face context management mechanism, equipped with a sparse context attention design to improve efficiency; and (3) continuity-aware techniques, including cube-aware positional encoding, padding, and blending to eliminate boundary seams. Extensive experiments on benchmark datasets demonstrate that CubeComposer outperforms state-of-the-art methods in native resolution and visual quality, supporting practical VR application scenarios. Project page: https://lg-li.github.io/project/cubecomposer