PicoAudio: Permitindo Controle Preciso de Timestamp e Frequência de Eventos de Áudio na Geração de Texto para Áudio
PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation
July 3, 2024
Autores: Zeyu Xie, Xuenan Xu, Zhizheng Wu, Mengyue Wu
cs.AI
Resumo
Recentemente, as tarefas de geração de áudio têm atraído consideráveis interesses de pesquisa. A controllabilidade temporal precisa é essencial para integrar a geração de áudio com aplicações reais. Neste trabalho, propomos um framework de geração de áudio controlado temporalmente, o PicoAudio. O PicoAudio integra informações temporais para orientar a geração de áudio por meio de um design de modelo personalizado. Ele aproveita a coleta, segmentação, filtragem e simulação de dados de áudio-texto alinhados temporalmente de forma detalhada. Avaliações subjetivas e objetivas demonstram que o PicoAudio supera drasticamente os modelos de geração de última geração em termos de controllabilidade de timestamp e frequência de ocorrência. As amostras geradas estão disponíveis no site de demonstração https://PicoAudio.github.io.
English
Recently, audio generation tasks have attracted considerable research
interests. Precise temporal controllability is essential to integrate audio
generation with real applications. In this work, we propose a temporal
controlled audio generation framework, PicoAudio. PicoAudio integrates temporal
information to guide audio generation through tailored model design. It
leverages data crawling, segmentation, filtering, and simulation of
fine-grained temporally-aligned audio-text data. Both subjective and objective
evaluations demonstrate that PicoAudio dramantically surpasses current
state-of-the-art generation models in terms of timestamp and occurrence
frequency controllability. The generated samples are available on the demo
website https://PicoAudio.github.io.