К потоковой генерации синхронизированного пространственного аудио посредством авторегрессионного диффузионного трансформера

Аннотация

Генерация пространственного аудио в реальном времени с высокой точностью является ключевым фактором для создания захватывающего опыта. Однако существующие технологии синтеза пространственного аудио часто сталкиваются с компромиссом между качеством генерации и высокой задержкой вывода, а также с трудностью точного извлечения пространственной информации из мультимодальных входных данных. Для решения этих задач мы предлагаем SwanSphere — единую потоковую платформу для высококачественной генерации пространственного аудио на основе панорамных видео и текстовых подсказок. SwanSphere вносит следующие основные вклады: 1) Мы представляем архитектуру каузального авторегрессионного диффузионного трансформера, которая обеспечивает потоковую генерацию пространственного аудио высокого качества. 2) Мы разрабатываем стратегию контрастного обучения пространственного видео и аудио (Spatial Video-Audio Contrastive, SVAC) для согласования видеокодера с акустической областью, а также применяем схему многокритериальной онлайн-оптимизации прямых предпочтений (multi-objective online direct preference optimization, ODPO), что приводит к сильному пространственному восприятию и надежному мультимодальному синтезу пространственного аудио. 3) Для смягчения текущей нехватки наборов данных пространственного аудио мы также разрабатываем автоматизированный конвейер аннотирования для создания подробных пространственных описаний. Экспериментальные результаты показывают, что SwanSphere достигает превосходных результатов как в задачах генерации пространственного аудио из видео, так и из текста. Демонстрации доступны по адресу: https://swanaigc.github.io.

English

Real-time and accurate spatial audio generation is pivotal for delivering an immersive experience. However, existing spatial audio synthesis technologies are often encumbered by a tradeoff between generation quality and high inference latency, as well as difficulty in capturing precise spatial information from multimodal inputs. To address these challenges, we propose SwanSphere, a unified streaming framework for high-fidelity spatial audio generation from panoramic videos and text prompts. SwanSphere mainly makes the following contributions: 1) We introduce a causal autoregressive diffusion transformer architecture that enables streaming high-quality spatial audio generation. 2) We design a Spatial Video-Audio Contrastive (SVAC) learning strategy to align the video encoder with the acoustic domain, and further employ a multi-objective online direct preference optimization (ODPO) scheme, resulting in strong spatial perception and robust multimodal spatial audio synthesis. 3) To alleviate the current scarcity of spatial audio datasets, we also develop an automated annotation pipeline for generating detailed spatial captions. Experimental results demonstrate that SwanSphere achieves superior performance in both video-to-spatial and text-to-spatial audio generation tasks. Demos can be found at: https://swanaigc.github.io.