WavFlow : Génération audio dans l'espace des formes d'onde

Résumé

La génération audio moderne repose principalement sur la compression dans l’espace latent, ce qui introduit une complexité supplémentaire et une perte d’information potentielle. Dans ce travail, nous remettons en cause ce paradigme avec WavFlow, un framework qui génère de l’audio haute-fidélité directement dans l’espace des formes d’onde brutes, sans représentations intermédiaires. Pour surmonter les difficultés inhérentes à la modélisation de signaux de grande dimension et de faible énergie, nous remodelons l’audio en grilles de jetons 2D par patchification des formes d’onde et introduisons un rehaussement d’amplitude pour aligner les échelles de signal, permettant une optimisation stable via la prédiction directe de x dans le flow matching. Afin de capturer un alignement sémantique complexe et une synchronisation temporelle, nous exploitons un pipeline de données automatisé pour constituer 5 millions de triplets vidéo-texte-audio de haute qualité, permettant au modèle d’apprendre des motifs acoustiques fins à partir de zéro. Les résultats expérimentaux montrent que WavFlow atteint des performances compétitives sur le benchmark vidéo-vers-audio VGGSound (FD_PaSST : 59,98, IS_PANNs : 17,40, DeSync : 0,44) et sur le benchmark texte-vers-audio AudioCaps (FD_PANNs : 10,63, IS_PANNs : 12,62), égalant ou dépassant les performances des méthodes à base latente établies. Notre travail démontre que la compression intermédiaire n’est pas une condition préalable à une synthèse de haute qualité, offrant une alternative plus simple et plus évolutive pour la génération audio multimodale.

English

Modern audio generation predominantly relies on latent-space compression, introducing additional complexity and potential information loss. In this work, we challenge this paradigm with WavFlow, a framework that generates high-fidelity audio directly in raw waveform space without intermediate representations. To overcome the inherent difficulties of modeling high-dimensional and low-energy signals, we reshape audio into 2D token grids through waveform patchify and introduce amplitude lifting to align signal scales, enabling stable optimization via direct x-prediction in flow matching. To capture complex semantic alignment and temporal synchronization, we leverage an automated data pipeline to curate 5 million high-quality video-text-audio triplets, allowing the model to learn fine-grained acoustic patterns from scratch. Experimental results show that WavFlow achieves competitive performance on the video-to-audio benchmark VGGSound (FD_PaSST: 59.98, IS_PANNs: 17.40, DeSync: 0.44) and the text-to-audio benchmark AudioCaps (FD_PANNs: 10.63, IS_PANNs: 12.62), matching or exceeding the performance of established latent-based methods. Our work demonstrates that intermediate compression is not a prerequisite for high-quality synthesis, offering a simpler and more scalable alternative for multimodal audio generation.