PicoAudio: Permitiendo el Control Preciso de la Marca de Tiempo y Frecuencia de Eventos de Audio en la Generación de Texto a Audio

Resumen

Recientemente, las tareas de generación de audio han atraído considerable interés de investigación. La precisión en la controlabilidad temporal es esencial para integrar la generación de audio con aplicaciones reales. En este trabajo, proponemos un marco de trabajo para la generación de audio controlado temporalmente, PicoAudio. PicoAudio integra información temporal para guiar la generación de audio a través de un diseño de modelo personalizado. Aprovecha el rastreo de datos, la segmentación, el filtrado y la simulación de datos de audio-texto temporalmente alineados a nivel detallado. Tanto evaluaciones subjetivas como objetivas demuestran que PicoAudio supera drásticamente a los modelos de generación actuales más avanzados en cuanto a controlabilidad de marcas de tiempo y frecuencia de ocurrencia. Las muestras generadas están disponibles en el sitio web de demostración https://PicoAudio.github.io.

English

Recently, audio generation tasks have attracted considerable research interests. Precise temporal controllability is essential to integrate audio generation with real applications. In this work, we propose a temporal controlled audio generation framework, PicoAudio. PicoAudio integrates temporal information to guide audio generation through tailored model design. It leverages data crawling, segmentation, filtering, and simulation of fine-grained temporally-aligned audio-text data. Both subjective and objective evaluations demonstrate that PicoAudio dramantically surpasses current state-of-the-art generation models in terms of timestamp and occurrence frequency controllability. The generated samples are available on the demo website https://PicoAudio.github.io.

PicoAudio: Permitiendo el Control Preciso de la Marca de Tiempo y Frecuencia de Eventos de Audio en la Generación de Texto a Audio

PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation

Resumen

Support