ChatPaper.aiChatPaper

PicoAudio: Ermöglichen präzise Zeitstempel- und Frequenzsteuerbarkeit von Audioereignissen in der Text-zu-Audio-Erzeugung

PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation

July 3, 2024
Autoren: Zeyu Xie, Xuenan Xu, Zhizheng Wu, Mengyue Wu
cs.AI

Zusammenfassung

In letzter Zeit haben Audio-Generierungsaufgaben beträchtliche Forschungsinteressen geweckt. Eine präzise zeitliche Steuerbarkeit ist entscheidend, um die Audio-Generierung in reale Anwendungen zu integrieren. In dieser Arbeit schlagen wir ein zeitlich gesteuertes Audio-Generierungsframework namens PicoAudio vor. PicoAudio integriert zeitliche Informationen, um die Audio-Generierung durch maßgeschneidertes Modell-Design zu lenken. Es nutzt Datencrawling, Segmentierung, Filterung und Simulation von fein abgestimmten zeitlich ausgerichteten Audio-Text-Daten. Sowohl subjektive als auch objektive Bewertungen zeigen, dass PicoAudio die aktuellen Spitzenmodelle in Bezug auf die zeitliche Steuerbarkeit von Zeitstempel und Auftretenshäufigkeit dramatisch übertrifft. Die generierten Beispiele sind auf der Demo-Website https://PicoAudio.github.io verfügbar.
English
Recently, audio generation tasks have attracted considerable research interests. Precise temporal controllability is essential to integrate audio generation with real applications. In this work, we propose a temporal controlled audio generation framework, PicoAudio. PicoAudio integrates temporal information to guide audio generation through tailored model design. It leverages data crawling, segmentation, filtering, and simulation of fine-grained temporally-aligned audio-text data. Both subjective and objective evaluations demonstrate that PicoAudio dramantically surpasses current state-of-the-art generation models in terms of timestamp and occurrence frequency controllability. The generated samples are available on the demo website https://PicoAudio.github.io.

Summary

AI-Generated Summary

PDF215November 28, 2024