WavFlow: Генерация аудио в пространстве сигналов

Аннотация

Современная генерация аудио в значительной степени опирается на сжатие в скрытом пространстве, что вносит дополнительную сложность и потенциальную потерю информации. В данной работе мы оспариваем эту парадигму с помощью WavFlow — фреймворка, который генерирует высококачественное аудио непосредственно в пространстве сырых волновых форм без промежуточных представлений. Чтобы преодолеть inherentные трудности моделирования высокоразмерных и низкоэнергетических сигналов, мы преобразуем аудио в двумерные сетки токенов через пачфикацию волновых форм и вводим амплитудное поднятие для выравнивания шкал сигналов, обеспечивая стабильную оптимизацию посредством прямого предсказания x в согласовании потоков. Для захвата сложного семантического выравнивания и временной синхронизации мы используем автоматизированный конвейер данных для курирования 5 миллионов высококачественных троек видео-текст-аудио, позволяя модели изучать мелкозернистые акустические паттерны с нуля. Экспериментальные результаты показывают, что WavFlow достигает конкурентоспособной производительности на бенчмарке видео-в-аудио VGGSound (FD_PaSST: 59,98, IS_PANNs: 17,40, DeSync: 0,44) и бенчмарке текст-в-аудио AudioCaps (FD_PANNs: 10,63, IS_PANNs: 12,62), соответствуя или превосходя производительность установленных методов на основе скрытых представлений. Наша работа демонстрирует, что промежуточное сжатие не является предпосылкой для высококачественного синтеза, предлагая более простую и более масштабируемую альтернативу для мультимодальной генерации аудио.

English

Modern audio generation predominantly relies on latent-space compression, introducing additional complexity and potential information loss. In this work, we challenge this paradigm with WavFlow, a framework that generates high-fidelity audio directly in raw waveform space without intermediate representations. To overcome the inherent difficulties of modeling high-dimensional and low-energy signals, we reshape audio into 2D token grids through waveform patchify and introduce amplitude lifting to align signal scales, enabling stable optimization via direct x-prediction in flow matching. To capture complex semantic alignment and temporal synchronization, we leverage an automated data pipeline to curate 5 million high-quality video-text-audio triplets, allowing the model to learn fine-grained acoustic patterns from scratch. Experimental results show that WavFlow achieves competitive performance on the video-to-audio benchmark VGGSound (FD_PaSST: 59.98, IS_PANNs: 17.40, DeSync: 0.44) and the text-to-audio benchmark AudioCaps (FD_PANNs: 10.63, IS_PANNs: 12.62), matching or exceeding the performance of established latent-based methods. Our work demonstrates that intermediate compression is not a prerequisite for high-quality synthesis, offering a simpler and more scalable alternative for multimodal audio generation.