ChatPaper.aiChatPaper

PicoAudio : Permettant un contrôle précis des timestamps et de la fréquence des événements audio dans la génération de texte vers audio

PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation

July 3, 2024
Auteurs: Zeyu Xie, Xuenan Xu, Zhizheng Wu, Mengyue Wu
cs.AI

Résumé

Récemment, les tâches de génération audio ont suscité un intérêt considérable dans la recherche. Un contrôle temporel précis est essentiel pour intégrer la génération audio dans des applications réelles. Dans ce travail, nous proposons un cadre de génération audio à contrôle temporel, PicoAudio. PicoAudio intègre des informations temporelles pour guider la génération audio grâce à une conception de modèle adaptée. Il exploite le crawling de données, la segmentation, le filtrage et la simulation de données audio-texte alignées temporellement à un niveau fin. Les évaluations subjectives et objectives démontrent que PicoAudio surpasse de manière significative les modèles de génération actuels les plus avancés en termes de contrôle des timestamps et de la fréquence d'occurrence. Les échantillons générés sont disponibles sur le site de démonstration https://PicoAudio.github.io.
English
Recently, audio generation tasks have attracted considerable research interests. Precise temporal controllability is essential to integrate audio generation with real applications. In this work, we propose a temporal controlled audio generation framework, PicoAudio. PicoAudio integrates temporal information to guide audio generation through tailored model design. It leverages data crawling, segmentation, filtering, and simulation of fine-grained temporally-aligned audio-text data. Both subjective and objective evaluations demonstrate that PicoAudio dramantically surpasses current state-of-the-art generation models in terms of timestamp and occurrence frequency controllability. The generated samples are available on the demo website https://PicoAudio.github.io.

Summary

AI-Generated Summary

PDF215November 28, 2024