PicoAudio : Permettant un contrôle précis des timestamps et de la fréquence des événements audio dans la génération de texte vers audio

Résumé

Récemment, les tâches de génération audio ont suscité un intérêt considérable dans la recherche. Un contrôle temporel précis est essentiel pour intégrer la génération audio dans des applications réelles. Dans ce travail, nous proposons un cadre de génération audio à contrôle temporel, PicoAudio. PicoAudio intègre des informations temporelles pour guider la génération audio grâce à une conception de modèle adaptée. Il exploite le crawling de données, la segmentation, le filtrage et la simulation de données audio-texte alignées temporellement à un niveau fin. Les évaluations subjectives et objectives démontrent que PicoAudio surpasse de manière significative les modèles de génération actuels les plus avancés en termes de contrôle des timestamps et de la fréquence d'occurrence. Les échantillons générés sont disponibles sur le site de démonstration https://PicoAudio.github.io.

English

Recently, audio generation tasks have attracted considerable research interests. Precise temporal controllability is essential to integrate audio generation with real applications. In this work, we propose a temporal controlled audio generation framework, PicoAudio. PicoAudio integrates temporal information to guide audio generation through tailored model design. It leverages data crawling, segmentation, filtering, and simulation of fine-grained temporally-aligned audio-text data. Both subjective and objective evaluations demonstrate that PicoAudio dramantically surpasses current state-of-the-art generation models in terms of timestamp and occurrence frequency controllability. The generated samples are available on the demo website https://PicoAudio.github.io.

PicoAudio : Permettant un contrôle précis des timestamps et de la fréquence des événements audio dans la génération de texte vers audio

PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation

Résumé

Support