PicoAudio : Permettant un contrôle précis des timestamps et de la fréquence des événements audio dans la génération de texte vers audio
PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation
July 3, 2024
Auteurs: Zeyu Xie, Xuenan Xu, Zhizheng Wu, Mengyue Wu
cs.AI
Résumé
Récemment, les tâches de génération audio ont suscité un intérêt considérable dans la recherche. Un contrôle temporel précis est essentiel pour intégrer la génération audio dans des applications réelles. Dans ce travail, nous proposons un cadre de génération audio à contrôle temporel, PicoAudio. PicoAudio intègre des informations temporelles pour guider la génération audio grâce à une conception de modèle adaptée. Il exploite le crawling de données, la segmentation, le filtrage et la simulation de données audio-texte alignées temporellement à un niveau fin. Les évaluations subjectives et objectives démontrent que PicoAudio surpasse de manière significative les modèles de génération actuels les plus avancés en termes de contrôle des timestamps et de la fréquence d'occurrence. Les échantillons générés sont disponibles sur le site de démonstration https://PicoAudio.github.io.
English
Recently, audio generation tasks have attracted considerable research
interests. Precise temporal controllability is essential to integrate audio
generation with real applications. In this work, we propose a temporal
controlled audio generation framework, PicoAudio. PicoAudio integrates temporal
information to guide audio generation through tailored model design. It
leverages data crawling, segmentation, filtering, and simulation of
fine-grained temporally-aligned audio-text data. Both subjective and objective
evaluations demonstrate that PicoAudio dramantically surpasses current
state-of-the-art generation models in terms of timestamp and occurrence
frequency controllability. The generated samples are available on the demo
website https://PicoAudio.github.io.Summary
AI-Generated Summary