PicoAudio: Abilitazione del Controllo Preciso di Timestamp e Frequenza degli Eventi Audio nella Generazione di Audio da Testo

Abstract

Recentemente, i compiti di generazione audio hanno attirato un notevole interesse di ricerca. La controllabilità temporale precisa è essenziale per integrare la generazione audio con applicazioni reali. In questo lavoro, proponiamo un framework di generazione audio temporalmente controllato, PicoAudio. PicoAudio integra informazioni temporali per guidare la generazione audio attraverso un design del modello su misura. Sfrutta il crawling dei dati, la segmentazione, il filtraggio e la simulazione di dati audio-testo temporalmente allineati a grana fine. Sia le valutazioni soggettive che quelle oggettive dimostrano che PicoAudio supera in modo significativo gli attuali modelli di generazione all'avanguardia in termini di controllabilità del timestamp e della frequenza di occorrenza. I campioni generati sono disponibili sul sito demo https://PicoAudio.github.io.

English

Recently, audio generation tasks have attracted considerable research interests. Precise temporal controllability is essential to integrate audio generation with real applications. In this work, we propose a temporal controlled audio generation framework, PicoAudio. PicoAudio integrates temporal information to guide audio generation through tailored model design. It leverages data crawling, segmentation, filtering, and simulation of fine-grained temporally-aligned audio-text data. Both subjective and objective evaluations demonstrate that PicoAudio dramantically surpasses current state-of-the-art generation models in terms of timestamp and occurrence frequency controllability. The generated samples are available on the demo website https://PicoAudio.github.io.

PicoAudio: Abilitazione del Controllo Preciso di Timestamp e Frequenza degli Eventi Audio nella Generazione di Audio da Testo

PicoAudio: Enabling Precise Timestamp and Frequency Controllability of Audio Events in Text-to-audio Generation

Abstract

Support