WavFlow: Audio-Generierung im Wellenformraum

Zusammenfassung

Moderne Audioerzeugung stützt sich überwiegend auf die Kompression im latenten Raum, was zusätzliche Komplexität und potenziellen Informationsverlust mit sich bringt. In dieser Arbeit stellen wir dieses Paradigma mit WavFlow in Frage, einem Framework, das hochwertiges Audio direkt im rohen Wellenformraum ohne Zwischenrepräsentationen erzeugt. Um die inhärenten Schwierigkeiten bei der Modellierung hochdimensionaler und niederenergetischer Signale zu überwinden, formen wir Audio durch Wellenform-Patchifizierung in 2D-Token-Gitter um und führen eine Amplitudenanhebung ein, um die Signalskalen anzugleichen, was eine stabile Optimierung durch direkte x-Vorhersage im Flow Matching ermöglicht. Um komplexe semantische Abstimmung und zeitliche Synchronisation zu erfassen, nutzen wir eine automatisierte Datenpipeline zur Zusammenstellung von 5 Millionen hochwertigen Video-Text-Audio-Tripeln, was es dem Modell ermöglicht, feinkörnige akustische Muster von Grund auf zu lernen. Experimentelle Ergebnisse zeigen, dass WavFlow auf dem Video-zu-Audio-Benchmark VGGSound (FD_PaSST: 59.98, IS_PANNs: 17.40, DeSync: 0.44) und dem Text-zu-Audio-Benchmark AudioCaps (FD_PANNs: 10.63, IS_PANNs: 12.62) eine wettbewerbsfähige Leistung erzielt und dabei die Leistung etablierter latenter Methoden erreicht oder übertrifft. Unsere Arbeit zeigt, dass eine Zwischenkompression keine Voraussetzung für eine qualitativ hochwertige Synthese ist, und bietet eine einfachere und skalierbarere Alternative für die multimodale Audioerzeugung.

English

Modern audio generation predominantly relies on latent-space compression, introducing additional complexity and potential information loss. In this work, we challenge this paradigm with WavFlow, a framework that generates high-fidelity audio directly in raw waveform space without intermediate representations. To overcome the inherent difficulties of modeling high-dimensional and low-energy signals, we reshape audio into 2D token grids through waveform patchify and introduce amplitude lifting to align signal scales, enabling stable optimization via direct x-prediction in flow matching. To capture complex semantic alignment and temporal synchronization, we leverage an automated data pipeline to curate 5 million high-quality video-text-audio triplets, allowing the model to learn fine-grained acoustic patterns from scratch. Experimental results show that WavFlow achieves competitive performance on the video-to-audio benchmark VGGSound (FD_PaSST: 59.98, IS_PANNs: 17.40, DeSync: 0.44) and the text-to-audio benchmark AudioCaps (FD_PANNs: 10.63, IS_PANNs: 12.62), matching or exceeding the performance of established latent-based methods. Our work demonstrates that intermediate compression is not a prerequisite for high-quality synthesis, offering a simpler and more scalable alternative for multimodal audio generation.