WavFlow: Geração de Áudio no Espaço de Forma de Onda

Resumo

A geração moderna de áudio depende predominantemente da compressão em espaço latente, introduzindo complexidade adicional e potencial perda de informação. Neste trabalho, desafiamos esse paradigma com o WavFlow, uma estrutura que gera áudio de alta fidelidade diretamente no espaço de forma de onda bruta, sem representações intermediárias. Para superar as dificuldades inerentes à modelagem de sinais de alta dimensionalidade e baixa energia, reorganizamos o áudio em grades de tokens 2D por meio de patchificação de forma de onda e introduzimos elevação de amplitude para alinhar as escalas do sinal, possibilitando otimização estável via predição direta de x no flow matching. Para capturar alinhamento semântico complexo e sincronização temporal, utilizamos um pipeline automático de dados para selecionar 5 milhões de tripletos vídeo-texto-áudio de alta qualidade, permitindo que o modelo aprenda padrões acústicos refinados a partir do zero. Resultados experimentais mostram que o WavFlow alcança desempenho competitivo no benchmark vídeo-para-áudio VGGSound (FD_PaSST: 59,98, IS_PANNs: 17,40, DeSync: 0,44) e no benchmark texto-para-áudio AudioCaps (FD_PANNs: 10,63, IS_PANNs: 12,62), igualando ou superando o desempenho de métodos estabelecidos baseados em latente. Nosso trabalho demonstra que a compressão intermediária não é um pré-requisito para síntese de alta qualidade, oferecendo uma alternativa mais simples e escalável para geração multimodal de áudio.

English

Modern audio generation predominantly relies on latent-space compression, introducing additional complexity and potential information loss. In this work, we challenge this paradigm with WavFlow, a framework that generates high-fidelity audio directly in raw waveform space without intermediate representations. To overcome the inherent difficulties of modeling high-dimensional and low-energy signals, we reshape audio into 2D token grids through waveform patchify and introduce amplitude lifting to align signal scales, enabling stable optimization via direct x-prediction in flow matching. To capture complex semantic alignment and temporal synchronization, we leverage an automated data pipeline to curate 5 million high-quality video-text-audio triplets, allowing the model to learn fine-grained acoustic patterns from scratch. Experimental results show that WavFlow achieves competitive performance on the video-to-audio benchmark VGGSound (FD_PaSST: 59.98, IS_PANNs: 17.40, DeSync: 0.44) and the text-to-audio benchmark AudioCaps (FD_PANNs: 10.63, IS_PANNs: 12.62), matching or exceeding the performance of established latent-based methods. Our work demonstrates that intermediate compression is not a prerequisite for high-quality synthesis, offering a simpler and more scalable alternative for multimodal audio generation.