CubeComposer: Пространственно-временное авторегрессионное создание 4K 360° видео из перспективного видео

Аннотация

Создание высококачественных панорамных видео 360° из перспективного видеоряда является одной из ключевых задач для виртуальной реальности (VR), где видео высокого разрешения особенно важны для обеспечения эффекта погружения. Существующие методы ограничены вычислительными возможностями стандартных диффузионных моделей, поддерживая нативное генерирование с разрешением не более 1K и полагаясь на неоптимальное пост-обработочное сверхразрешение для повышения детализации. Мы представляем CubeComposer — новую пространственно-временную авторегрессионную диффузионную модель, которая нативно генерирует видео 360° в разрешении 4K. Путем декомпозиции видео в кубическую проекцию с шестью гранями, CubeComposer авторегрессивно синтезирует контент в продуманном пространственно-временном порядке, снижая требования к памяти при обеспечении высокого разрешения. В частности, для решения проблем многомерной авторегрессии мы предлагаем: (1) пространственно-временную авторегрессионную стратегию, координирующую генерацию видео 360° по граням куба и временным окнам для согласованного синтеза; (2) механизм управления контекстом граней куба, оснащенный разреженной attention-архитектурой для повышения эффективности; и (3) методы обеспечения непрерывности, включая кубическую позиционную кодировку, паддинг и слияние для устранения швов на границах. Многочисленные эксперименты на эталонных наборах данных демонстрируют, что CubeComposer превосходит современные методы по нативному разрешению и визуальному качеству, поддерживая практические сценарии применения в VR. Страница проекта: https://lg-li.github.io/project/cubecomposer

English

Generating high-quality 360° panoramic videos from perspective input is one of the crucial applications for virtual reality (VR), whereby high-resolution videos are especially important for immersive experience. Existing methods are constrained by computational limitations of vanilla diffusion models, only supporting leq 1K resolution native generation and relying on suboptimal post super-resolution to increase resolution. We introduce CubeComposer, a novel spatio-temporal autoregressive diffusion model that natively generates 4K-resolution 360° videos. By decomposing videos into cubemap representations with six faces, CubeComposer autoregressively synthesizes content in a well-planned spatio-temporal order, reducing memory demands while enabling high-resolution output. Specifically, to address challenges in multi-dimensional autoregression, we propose: (1) a spatio-temporal autoregressive strategy that orchestrates 360° video generation across cube faces and time windows for coherent synthesis; (2) a cube face context management mechanism, equipped with a sparse context attention design to improve efficiency; and (3) continuity-aware techniques, including cube-aware positional encoding, padding, and blending to eliminate boundary seams. Extensive experiments on benchmark datasets demonstrate that CubeComposer outperforms state-of-the-art methods in native resolution and visual quality, supporting practical VR application scenarios. Project page: https://lg-li.github.io/project/cubecomposer

CubeComposer: Пространственно-временное авторегрессионное создание 4K 360° видео из перспективного видео

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

Аннотация

Support