Auf dem Weg zur Streaming-synchronisierten räumlichen Audiogenerierung mittels autoregressivem Diffusionstransformator
Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer
May 29, 2026
Autoren: Ke Lei, Yu Zhang, Changhao Pan, Xueyi Pu, Wenxiang Guo, Ruiqi Li, Zhou Zhao
cs.AI
Zusammenfassung
Echtzeit- und präzise räumliche Audiogenerierung ist entscheidend für ein immersives Erlebnis. Allerdings sind bestehende Technologien zur räumlichen Audiosynthese oft durch einen Kompromiss zwischen Generierungsqualität und hoher Inferenzlatenz sowie durch Schwierigkeiten bei der Erfassung präziser räumlicher Informationen aus multimodalen Eingaben beeinträchtigt. Um diese Herausforderungen zu bewältigen, schlagen wir SwanSphere vor, ein einheitliches Streaming-Framework für hochwertige räumliche Audiogenerierung aus Panoramavideos und Textaufforderungen. SwanSphere leistet dabei folgende Hauptbeiträge: 1) Wir führen eine kausale autoregressive Diffusionstransformer-Architektur ein, die eine Streaming-Generierung hochwertiger räumlicher Audioinhalte ermöglicht. 2) Wir entwerfen eine Lernstrategie für räumliches Video-Audio-Kontrastivlernen (SVAC), um den Video-Encoder an die akustische Domäne anzupassen, und setzen zudem ein multiobjektives Online-Direktpräferenzoptimierungsverfahren (ODPO) ein, was zu einer starken räumlichen Wahrnehmung und einer robusten multimodalen räumlichen Audiosynthese führt. 3) Um die derzeitige Knappheit an räumlichen Audiodatensätzen zu mildern, entwickeln wir außerdem eine automatisierte Annotationspipeline zur Erstellung detaillierter räumlicher Beschreibungen. Experimentelle Ergebnisse zeigen, dass SwanSphere sowohl bei der Video-zu-Raumklang- als auch bei der Text-zu-Raumklang-Generierung überlegene Leistungen erzielt. Demos sind zu finden unter: https://swanaigc.github.io.
English
Real-time and accurate spatial audio generation is pivotal for delivering an immersive experience. However, existing spatial audio synthesis technologies are often encumbered by a tradeoff between generation quality and high inference latency, as well as difficulty in capturing precise spatial information from multimodal inputs. To address these challenges, we propose SwanSphere, a unified streaming framework for high-fidelity spatial audio generation from panoramic videos and text prompts. SwanSphere mainly makes the following contributions: 1) We introduce a causal autoregressive diffusion transformer architecture that enables streaming high-quality spatial audio generation. 2) We design a Spatial Video-Audio Contrastive (SVAC) learning strategy to align the video encoder with the acoustic domain, and further employ a multi-objective online direct preference optimization (ODPO) scheme, resulting in strong spatial perception and robust multimodal spatial audio synthesis. 3) To alleviate the current scarcity of spatial audio datasets, we also develop an automated annotation pipeline for generating detailed spatial captions. Experimental results demonstrate that SwanSphere achieves superior performance in both video-to-spatial and text-to-spatial audio generation tasks. Demos can be found at: https://swanaigc.github.io.