PicoAudio: Het mogelijk maken van nauwkeurige tijdstempel- en frequentiebeheerbaarheid van audio-evenementen in tekst-naar-audio-generatie

Samenvatting

Onlangs hebben audiogeneratietaken aanzienlijke onderzoeksinteresse aangetrokken. Nauwkeurige temporele beheersbaarheid is essentieel om audiogeneratie te integreren met praktische toepassingen. In dit werk stellen we een temporeel gecontroleerd audiogeneratieframework voor, genaamd PicoAudio. PicoAudio integreert temporele informatie om audiogeneratie te sturen via een op maat gemaakt modelontwerp. Het maakt gebruik van dataverzameling, segmentatie, filtering en simulatie van fijnmazige temporeel uitgelijnde audio-tekstgegevens. Zowel subjectieve als objectieve evaluaties tonen aan dat PicoAudio de huidige state-of-the-art generatiemodellen aanzienlijk overtreft wat betreft de beheersbaarheid van tijdstempels en voorkomingsfrequentie. De gegenereerde voorbeelden zijn beschikbaar op de demowebsite https://PicoAudio.github.io.

English

Recently, audio generation tasks have attracted considerable research interests. Precise temporal controllability is essential to integrate audio generation with real applications. In this work, we propose a temporal controlled audio generation framework, PicoAudio. PicoAudio integrates temporal information to guide audio generation through tailored model design. It leverages data crawling, segmentation, filtering, and simulation of fine-grained temporally-aligned audio-text data. Both subjective and objective evaluations demonstrate that PicoAudio dramantically surpasses current state-of-the-art generation models in terms of timestamp and occurrence frequency controllability. The generated samples are available on the demo website https://PicoAudio.github.io.

PicoAudio: Het mogelijk maken van nauwkeurige tijdstempel- en frequentiebeheerbaarheid van audio-evenementen in tekst-naar-audio-generatie

PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation

Samenvatting

Support