PicoAudio: Permitiendo el Control Preciso de la Marca de Tiempo y Frecuencia de Eventos de Audio en la Generación de Texto a Audio
PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation
July 3, 2024
Autores: Zeyu Xie, Xuenan Xu, Zhizheng Wu, Mengyue Wu
cs.AI
Resumen
Recientemente, las tareas de generación de audio han atraído considerable interés de investigación. La precisión en la controlabilidad temporal es esencial para integrar la generación de audio con aplicaciones reales. En este trabajo, proponemos un marco de trabajo para la generación de audio controlado temporalmente, PicoAudio. PicoAudio integra información temporal para guiar la generación de audio a través de un diseño de modelo personalizado. Aprovecha el rastreo de datos, la segmentación, el filtrado y la simulación de datos de audio-texto temporalmente alineados a nivel detallado. Tanto evaluaciones subjetivas como objetivas demuestran que PicoAudio supera drásticamente a los modelos de generación actuales más avanzados en cuanto a controlabilidad de marcas de tiempo y frecuencia de ocurrencia. Las muestras generadas están disponibles en el sitio web de demostración https://PicoAudio.github.io.
English
Recently, audio generation tasks have attracted considerable research
interests. Precise temporal controllability is essential to integrate audio
generation with real applications. In this work, we propose a temporal
controlled audio generation framework, PicoAudio. PicoAudio integrates temporal
information to guide audio generation through tailored model design. It
leverages data crawling, segmentation, filtering, and simulation of
fine-grained temporally-aligned audio-text data. Both subjective and objective
evaluations demonstrate that PicoAudio dramantically surpasses current
state-of-the-art generation models in terms of timestamp and occurrence
frequency controllability. The generated samples are available on the demo
website https://PicoAudio.github.io.Summary
AI-Generated Summary