WavFlow: Generación de Audio en el Espacio de Formas de Onda

Resumen

La generación de audio moderna se basa predominantemente en la compresión en el espacio latente, lo que introduce complejidad adicional y una posible pérdida de información. En este trabajo, desafiamos este paradigma con WavFlow, un marco que genera audio de alta fidelidad directamente en el espacio de forma de onda sin procesar, sin representaciones intermedias. Para superar las dificultades inherentes al modelado de señales de alta dimensionalidad y baja energía, reformateamos el audio en cuadrículas de tokens 2D mediante el parcheado de formas de onda e introducimos la elevación de amplitud para alinear las escalas de la señal, lo que permite una optimización estable mediante la predicción directa de x en el acoplamiento de flujo. Para capturar la compleja alineación semántica y la sincronización temporal, aprovechamos un pipeline automatizado de datos para seleccionar 5 millones de tripletas video-texto-audio de alta calidad, lo que permite que el modelo aprenda patrones acústicos detallados desde cero. Los resultados experimentales muestran que WavFlow logra un rendimiento competitivo en el punto de referencia de video a audio VGGSound (FD_PaSST: 59.98, IS_PANNs: 17.40, DeSync: 0.44) y en el punto de referencia de texto a audio AudioCaps (FD_PANNs: 10.63, IS_PANNs: 12.62), igualando o superando el rendimiento de métodos basados en latentes establecidos. Nuestro trabajo demuestra que la compresión intermedia no es un requisito previo para una síntesis de alta calidad, ofreciendo una alternativa más simple y escalable para la generación de audio multimodal.

English

Modern audio generation predominantly relies on latent-space compression, introducing additional complexity and potential information loss. In this work, we challenge this paradigm with WavFlow, a framework that generates high-fidelity audio directly in raw waveform space without intermediate representations. To overcome the inherent difficulties of modeling high-dimensional and low-energy signals, we reshape audio into 2D token grids through waveform patchify and introduce amplitude lifting to align signal scales, enabling stable optimization via direct x-prediction in flow matching. To capture complex semantic alignment and temporal synchronization, we leverage an automated data pipeline to curate 5 million high-quality video-text-audio triplets, allowing the model to learn fine-grained acoustic patterns from scratch. Experimental results show that WavFlow achieves competitive performance on the video-to-audio benchmark VGGSound (FD_PaSST: 59.98, IS_PANNs: 17.40, DeSync: 0.44) and the text-to-audio benchmark AudioCaps (FD_PANNs: 10.63, IS_PANNs: 12.62), matching or exceeding the performance of established latent-based methods. Our work demonstrates that intermediate compression is not a prerequisite for high-quality synthesis, offering a simpler and more scalable alternative for multimodal audio generation.