ChatPaper.aiChatPaper

PicoAudio: Het mogelijk maken van nauwkeurige tijdstempel- en frequentiebeheerbaarheid van audio-evenementen in tekst-naar-audio-generatie

PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation

July 3, 2024
Auteurs: Zeyu Xie, Xuenan Xu, Zhizheng Wu, Mengyue Wu
cs.AI

Samenvatting

Onlangs hebben audiogeneratietaken aanzienlijke onderzoeksinteresse aangetrokken. Nauwkeurige temporele beheersbaarheid is essentieel om audiogeneratie te integreren met praktische toepassingen. In dit werk stellen we een temporeel gecontroleerd audiogeneratieframework voor, genaamd PicoAudio. PicoAudio integreert temporele informatie om audiogeneratie te sturen via een op maat gemaakt modelontwerp. Het maakt gebruik van dataverzameling, segmentatie, filtering en simulatie van fijnmazige temporeel uitgelijnde audio-tekstgegevens. Zowel subjectieve als objectieve evaluaties tonen aan dat PicoAudio de huidige state-of-the-art generatiemodellen aanzienlijk overtreft wat betreft de beheersbaarheid van tijdstempels en voorkomingsfrequentie. De gegenereerde voorbeelden zijn beschikbaar op de demowebsite https://PicoAudio.github.io.
English
Recently, audio generation tasks have attracted considerable research interests. Precise temporal controllability is essential to integrate audio generation with real applications. In this work, we propose a temporal controlled audio generation framework, PicoAudio. PicoAudio integrates temporal information to guide audio generation through tailored model design. It leverages data crawling, segmentation, filtering, and simulation of fine-grained temporally-aligned audio-text data. Both subjective and objective evaluations demonstrate that PicoAudio dramantically surpasses current state-of-the-art generation models in terms of timestamp and occurrence frequency controllability. The generated samples are available on the demo website https://PicoAudio.github.io.
PDF215November 28, 2024