PicoAudio: Het mogelijk maken van nauwkeurige tijdstempel- en frequentiebeheerbaarheid van audio-evenementen in tekst-naar-audio-generatie
PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation
July 3, 2024
Auteurs: Zeyu Xie, Xuenan Xu, Zhizheng Wu, Mengyue Wu
cs.AI
Samenvatting
Onlangs hebben audiogeneratietaken aanzienlijke onderzoeksinteresse aangetrokken. Nauwkeurige temporele beheersbaarheid is essentieel om audiogeneratie te integreren met praktische toepassingen. In dit werk stellen we een temporeel gecontroleerd audiogeneratieframework voor, genaamd PicoAudio. PicoAudio integreert temporele informatie om audiogeneratie te sturen via een op maat gemaakt modelontwerp. Het maakt gebruik van dataverzameling, segmentatie, filtering en simulatie van fijnmazige temporeel uitgelijnde audio-tekstgegevens. Zowel subjectieve als objectieve evaluaties tonen aan dat PicoAudio de huidige state-of-the-art generatiemodellen aanzienlijk overtreft wat betreft de beheersbaarheid van tijdstempels en voorkomingsfrequentie. De gegenereerde voorbeelden zijn beschikbaar op de demowebsite https://PicoAudio.github.io.
English
Recently, audio generation tasks have attracted considerable research
interests. Precise temporal controllability is essential to integrate audio
generation with real applications. In this work, we propose a temporal
controlled audio generation framework, PicoAudio. PicoAudio integrates temporal
information to guide audio generation through tailored model design. It
leverages data crawling, segmentation, filtering, and simulation of
fine-grained temporally-aligned audio-text data. Both subjective and objective
evaluations demonstrate that PicoAudio dramantically surpasses current
state-of-the-art generation models in terms of timestamp and occurrence
frequency controllability. The generated samples are available on the demo
website https://PicoAudio.github.io.