Synthio: Het aanvullen van kleine audioclassificatiedatasets met synthetische gegevens
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data
October 2, 2024
Auteurs: Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha
cs.AI
Samenvatting
We presenteren Synthio, een nieuwe benadering voor het uitbreiden van kleine audio classificatie datasets met synthetische data. Ons doel is om de nauwkeurigheid van audio classificatie te verbeteren met beperkte gelabelde data. Traditionele data augmentatie technieken, die kunstmatige transformaties toepassen (bijv. het toevoegen van willekeurig geluid of maskeren van segmenten), hebben moeite om data te creëren die de ware diversiteit in echte audio's vastlegt. Om dit tekort aan te pakken, stellen we voor om de dataset aan te vullen met synthetische audio die is gegenereerd uit tekst-naar-audio (T2A) diffusie modellen. Het synthetiseren van effectieve augmentaties is echter uitdagend omdat de gegenereerde data niet alleen akoestisch consistent moet zijn met de onderliggende kleine dataset, maar ook voldoende compositorische diversiteit moet hebben. Om het eerste probleem aan te pakken, stemmen we de generaties van het T2A model af op de kleine dataset met behulp van voorkeurs optimalisatie. Dit zorgt ervoor dat de akoestische kenmerken van de gegenereerde data consistent blijven met de kleine dataset. Om het tweede probleem aan te pakken, stellen we een nieuwe techniek voor voor het genereren van bijschriften die gebruik maakt van de redeneervermogens van Grote Taalmodellen om (1) diverse en betekenisvolle audio bijschriften te genereren en (2) iteratief hun kwaliteit te verfijnen. De gegenereerde bijschriften worden vervolgens gebruikt om het afgestemde T2A model aan te sturen. We evalueren Synthio uitgebreid op tien datasets en vier gesimuleerde beperkte data instellingen. De resultaten geven aan dat onze methode consequent beter presteert dan alle baselines met 0.1%-39% met behulp van een T2A model dat alleen is getraind op zwak-onderschreven AudioSet.
English
We present Synthio, a novel approach for augmenting small-scale audio
classification datasets with synthetic data. Our goal is to improve audio
classification accuracy with limited labeled data. Traditional data
augmentation techniques, which apply artificial transformations (e.g., adding
random noise or masking segments), struggle to create data that captures the
true diversity present in real-world audios. To address this shortcoming, we
propose to augment the dataset with synthetic audio generated from
text-to-audio (T2A) diffusion models. However, synthesizing effective
augmentations is challenging because not only should the generated data be
acoustically consistent with the underlying small-scale dataset, but they
should also have sufficient compositional diversity. To overcome the first
challenge, we align the generations of the T2A model with the small-scale
dataset using preference optimization. This ensures that the acoustic
characteristics of the generated data remain consistent with the small-scale
dataset. To address the second challenge, we propose a novel caption generation
technique that leverages the reasoning capabilities of Large Language Models to
(1) generate diverse and meaningful audio captions and (2) iteratively refine
their quality. The generated captions are then used to prompt the aligned T2A
model. We extensively evaluate Synthio on ten datasets and four simulated
limited-data settings. Results indicate our method consistently outperforms all
baselines by 0.1%-39% using a T2A model trained only on weakly-captioned
AudioSet.Summary
AI-Generated Summary