Synthio : Augmentation de petits ensembles de données de classification audio à l'aide de données synthétiques
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data
October 2, 2024
Auteurs: Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha
cs.AI
Résumé
Nous présentons Synthio, une nouvelle approche pour augmenter les ensembles de données de classification audio à petite échelle avec des données synthétiques. Notre objectif est d'améliorer la précision de la classification audio avec des données étiquetées limitées. Les techniques traditionnelles d'augmentation de données, qui appliquent des transformations artificielles (par exemple, ajouter du bruit aléatoire ou masquer des segments), ont du mal à créer des données qui captent la véritable diversité présente dans les audios du monde réel. Pour remédier à cette lacune, nous proposons d'augmenter l'ensemble de données avec des audios synthétiques générés à partir de modèles de diffusion texte-vers-audio (T2A). Cependant, la synthèse d'augmentations efficaces est un défi car les données générées doivent non seulement être acoustiquement cohérentes avec l'ensemble de données à petite échelle sous-jacent, mais elles doivent également présenter une diversité compositionnelle suffisante. Pour surmonter le premier défi, nous alignons les générations du modèle T2A avec l'ensemble de données à petite échelle en utilisant une optimisation de préférence. Cela garantit que les caractéristiques acoustiques des données générées restent cohérentes avec l'ensemble de données à petite échelle. Pour relever le deuxième défi, nous proposons une nouvelle technique de génération de légendes qui exploite les capacités de raisonnement des grands modèles de langage pour (1) générer des légendes audio diverses et significatives et (2) affiner itérativement leur qualité. Les légendes générées sont ensuite utilisées pour solliciter le modèle T2A aligné. Nous évaluons de manière approfondie Synthio sur dix ensembles de données et quatre paramètres de données limitées simulées. Les résultats indiquent que notre méthode surpasse systématiquement toutes les lignes de base de 0,1 % à 39 % en utilisant un modèle T2A entraîné uniquement sur AudioSet faiblement légendé.
English
We present Synthio, a novel approach for augmenting small-scale audio
classification datasets with synthetic data. Our goal is to improve audio
classification accuracy with limited labeled data. Traditional data
augmentation techniques, which apply artificial transformations (e.g., adding
random noise or masking segments), struggle to create data that captures the
true diversity present in real-world audios. To address this shortcoming, we
propose to augment the dataset with synthetic audio generated from
text-to-audio (T2A) diffusion models. However, synthesizing effective
augmentations is challenging because not only should the generated data be
acoustically consistent with the underlying small-scale dataset, but they
should also have sufficient compositional diversity. To overcome the first
challenge, we align the generations of the T2A model with the small-scale
dataset using preference optimization. This ensures that the acoustic
characteristics of the generated data remain consistent with the small-scale
dataset. To address the second challenge, we propose a novel caption generation
technique that leverages the reasoning capabilities of Large Language Models to
(1) generate diverse and meaningful audio captions and (2) iteratively refine
their quality. The generated captions are then used to prompt the aligned T2A
model. We extensively evaluate Synthio on ten datasets and four simulated
limited-data settings. Results indicate our method consistently outperforms all
baselines by 0.1%-39% using a T2A model trained only on weakly-captioned
AudioSet.Summary
AI-Generated Summary