Vers la génération d'audio spatial synchronisé en streaming via un transformateur diffusif autorégressif

Résumé

La génération audio spatiale en temps réel et précise est essentielle pour offrir une expérience immersive. Cependant, les technologies existantes de synthèse audio spatiale sont souvent entravées par un compromis entre la qualité de génération et une latence d'inférence élevée, ainsi que par la difficulté à capturer des informations spatiales précises à partir d'entrées multimodales. Pour relever ces défis, nous proposons SwanSphere, un cadre unifié en continu pour la génération audio spatiale haute-fidélité à partir de vidéos panoramiques et d'invites textuelles. SwanSphere apporte principalement les contributions suivantes : 1) Nous introduisons une architecture de transformateur de diffusion autorégressif causal qui permet une génération audio spatiale de haute qualité en continu. 2) Nous concevons une stratégie d'apprentissage contrastif vidéo-audio spatial (SVAC) pour aligner l'encodeur vidéo sur le domaine acoustique, et nous employons en outre un schéma d'optimisation directe des préférences en ligne multi-objectifs (ODPO), ce qui permet une perception spatiale solide et une synthèse audio spatiale multimodale robuste. 3) Pour pallier la pénurie actuelle de jeux de données audio spatiales, nous développons également un pipeline d'annotation automatisé pour générer des légendes spatiales détaillées. Les résultats expérimentaux montrent que SwanSphere atteint des performances supérieures dans les tâches de génération audio spatiale à partir de vidéos et à partir de texte. Les démonstrations sont disponibles à l'adresse : https://swanaigc.github.io.

English

Real-time and accurate spatial audio generation is pivotal for delivering an immersive experience. However, existing spatial audio synthesis technologies are often encumbered by a tradeoff between generation quality and high inference latency, as well as difficulty in capturing precise spatial information from multimodal inputs. To address these challenges, we propose SwanSphere, a unified streaming framework for high-fidelity spatial audio generation from panoramic videos and text prompts. SwanSphere mainly makes the following contributions: 1) We introduce a causal autoregressive diffusion transformer architecture that enables streaming high-quality spatial audio generation. 2) We design a Spatial Video-Audio Contrastive (SVAC) learning strategy to align the video encoder with the acoustic domain, and further employ a multi-objective online direct preference optimization (ODPO) scheme, resulting in strong spatial perception and robust multimodal spatial audio synthesis. 3) To alleviate the current scarcity of spatial audio datasets, we also develop an automated annotation pipeline for generating detailed spatial captions. Experimental results demonstrate that SwanSphere achieves superior performance in both video-to-spatial and text-to-spatial audio generation tasks. Demos can be found at: https://swanaigc.github.io.