Synthio: Erweiterung von kleinen Audio-Klassifikationsdatensätzen mit synthetischen Daten
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data
October 2, 2024
Autoren: Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha
cs.AI
Zusammenfassung
Wir präsentieren Synthio, einen neuartigen Ansatz zur Erweiterung von kleinen Audio-Klassifikationsdatensätzen mit synthetischen Daten. Unser Ziel ist es, die Genauigkeit der Audio-Klassifikation mit begrenzten gelabelten Daten zu verbessern. Traditionelle Datenerweiterungstechniken, die künstliche Transformationen anwenden (z. B. Hinzufügen von zufälligem Rauschen oder Maskieren von Segmenten), haben Schwierigkeiten, Daten zu erzeugen, die die wahre Vielfalt in realen Audios erfassen. Um diese Schwäche anzugehen, schlagen wir vor, den Datensatz mit synthetisch erzeugten Audios aus Text-zu-Audio (T2A) Diffusionsmodellen zu erweitern. Die Synthese effektiver Erweiterungen ist jedoch herausfordernd, da die erzeugten Daten nicht nur akustisch konsistent mit dem zugrunde liegenden kleinen Datensatz sein sollten, sondern auch über ausreichende kompositorische Vielfalt verfügen sollten. Um die erste Herausforderung zu überwinden, gleichen wir die Generationen des T2A-Modells mit dem kleinen Datensatz mithilfe der Präferenzoptimierung ab. Dies stellt sicher, dass die akustischen Merkmale der erzeugten Daten konsistent mit dem kleinen Datensatz bleiben. Um die zweite Herausforderung anzugehen, schlagen wir eine neuartige Technik zur Bildunterschriftsgenerierung vor, die die Argumentationsfähigkeiten großer Sprachmodelle nutzt, um (1) vielfältige und sinnvolle Audio-Unterschriften zu generieren und (2) iterativ deren Qualität zu verfeinern. Die generierten Bildunterschriften werden dann verwendet, um das abgestimmte T2A-Modell zu aktivieren. Wir evaluieren Synthio umfassend an zehn Datensätzen und vier simulierten begrenzten Dateneinstellungen. Die Ergebnisse zeigen, dass unsere Methode unter Verwendung eines nur schwach beschrifteten AudioSets trainierten T2A-Modells konsistent alle Baselines um 0,1 % bis 39 % übertrifft.
English
We present Synthio, a novel approach for augmenting small-scale audio
classification datasets with synthetic data. Our goal is to improve audio
classification accuracy with limited labeled data. Traditional data
augmentation techniques, which apply artificial transformations (e.g., adding
random noise or masking segments), struggle to create data that captures the
true diversity present in real-world audios. To address this shortcoming, we
propose to augment the dataset with synthetic audio generated from
text-to-audio (T2A) diffusion models. However, synthesizing effective
augmentations is challenging because not only should the generated data be
acoustically consistent with the underlying small-scale dataset, but they
should also have sufficient compositional diversity. To overcome the first
challenge, we align the generations of the T2A model with the small-scale
dataset using preference optimization. This ensures that the acoustic
characteristics of the generated data remain consistent with the small-scale
dataset. To address the second challenge, we propose a novel caption generation
technique that leverages the reasoning capabilities of Large Language Models to
(1) generate diverse and meaningful audio captions and (2) iteratively refine
their quality. The generated captions are then used to prompt the aligned T2A
model. We extensively evaluate Synthio on ten datasets and four simulated
limited-data settings. Results indicate our method consistently outperforms all
baselines by 0.1%-39% using a T2A model trained only on weakly-captioned
AudioSet.Summary
AI-Generated Summary