ChatPaper.aiChatPaper

CubeComposer:視点映像からの時空間自己回帰的4K 360°動画生成

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

March 4, 2026
著者: Lingen Li, Guangzhi Wang, Xiaoyu Li, Zhaoyang Zhang, Qi Dou, Jinwei Gu, Tianfan Xue, Ying Shan
cs.AI

要旨

視点入力から高品質な360°パノラマ動画を生成することは、仮想現実(VR)における重要な応用の一つであり、没入感のある体験には高解像度の動画が特に重要である。既存手法は従来の拡散モデルの計算限界に制約され、ネイティブ生成では1K解像度以下しかサポートできず、解像度向上には最適とは言えない後段の超解像処理に依存している。本論文では、ネイティブで4K解像度の360°動画を生成する新しい時空間自己回帰拡散モデル「CubeComposer」を提案する。動画を6面からなる立方体マップ表現に分解することで、CubeComposerは計画的な時空間順序でコンテンツを自己回帰的に合成し、メモリ要求を削減しながら高解像度出力を実現する。特に多次元自己回帰における課題に対処するため、(1)立方体面と時間ウィンドウを跨ぐ一貫性のある合成のための時空間自己回帰戦略、(2)効率性を改善する疎なコンテキスト注意機構を備えた立方体面コンテキスト管理メカニズム、(3)境界の継ぎ目を排除する立方体対応位置符号化・パディング・ブレンディングを含む連続性認識技術を提案する。ベンチマークデータセットにおける大規模実験により、CubeComposerがネイティブ解像度と視覚品質において既存の最先端手法を凌駕し、実用的なVR応用シナリオをサポートすることを実証する。プロジェクトページ: https://lg-li.github.io/project/cubecomposer
English
Generating high-quality 360° panoramic videos from perspective input is one of the crucial applications for virtual reality (VR), whereby high-resolution videos are especially important for immersive experience. Existing methods are constrained by computational limitations of vanilla diffusion models, only supporting leq 1K resolution native generation and relying on suboptimal post super-resolution to increase resolution. We introduce CubeComposer, a novel spatio-temporal autoregressive diffusion model that natively generates 4K-resolution 360° videos. By decomposing videos into cubemap representations with six faces, CubeComposer autoregressively synthesizes content in a well-planned spatio-temporal order, reducing memory demands while enabling high-resolution output. Specifically, to address challenges in multi-dimensional autoregression, we propose: (1) a spatio-temporal autoregressive strategy that orchestrates 360° video generation across cube faces and time windows for coherent synthesis; (2) a cube face context management mechanism, equipped with a sparse context attention design to improve efficiency; and (3) continuity-aware techniques, including cube-aware positional encoding, padding, and blending to eliminate boundary seams. Extensive experiments on benchmark datasets demonstrate that CubeComposer outperforms state-of-the-art methods in native resolution and visual quality, supporting practical VR application scenarios. Project page: https://lg-li.github.io/project/cubecomposer
PDF112March 6, 2026