PicoAudio: Abilitazione del Controllo Preciso di Timestamp e Frequenza degli Eventi Audio nella Generazione di Audio da Testo
PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation
July 3, 2024
Autori: Zeyu Xie, Xuenan Xu, Zhizheng Wu, Mengyue Wu
cs.AI
Abstract
Recentemente, i compiti di generazione audio hanno attirato un notevole interesse di ricerca. La controllabilità temporale precisa è essenziale per integrare la generazione audio con applicazioni reali. In questo lavoro, proponiamo un framework di generazione audio temporalmente controllato, PicoAudio. PicoAudio integra informazioni temporali per guidare la generazione audio attraverso un design del modello su misura. Sfrutta il crawling dei dati, la segmentazione, il filtraggio e la simulazione di dati audio-testo temporalmente allineati a grana fine. Sia le valutazioni soggettive che quelle oggettive dimostrano che PicoAudio supera in modo significativo gli attuali modelli di generazione all'avanguardia in termini di controllabilità del timestamp e della frequenza di occorrenza. I campioni generati sono disponibili sul sito demo https://PicoAudio.github.io.
English
Recently, audio generation tasks have attracted considerable research
interests. Precise temporal controllability is essential to integrate audio
generation with real applications. In this work, we propose a temporal
controlled audio generation framework, PicoAudio. PicoAudio integrates temporal
information to guide audio generation through tailored model design. It
leverages data crawling, segmentation, filtering, and simulation of
fine-grained temporally-aligned audio-text data. Both subjective and objective
evaluations demonstrate that PicoAudio dramantically surpasses current
state-of-the-art generation models in terms of timestamp and occurrence
frequency controllability. The generated samples are available on the demo
website https://PicoAudio.github.io.