Synthio: Ampliamento di set di dati di classificazione audio su piccola scala con dati sintetici
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data
October 2, 2024
Autori: Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha
cs.AI
Abstract
Presentiamo Synthio, un nuovo approccio per aumentare i dataset di classificazione audio su piccola scala con dati sintetici. Il nostro obiettivo è migliorare l'accuratezza della classificazione audio con dati annotati limitati. Le tecniche tradizionali di aumento dei dati, che applicano trasformazioni artificiali (ad esempio, aggiungere rumore casuale o mascherare segmenti), faticano a creare dati che catturino la vera diversità presente negli audio del mondo reale. Per affrontare questa limitazione, proponiamo di aumentare il dataset con audio sintetico generato da modelli di diffusione testo-audio (T2A). Tuttavia, sintetizzare aumenti efficaci è impegnativo perché i dati generati non solo dovrebbero essere acusticamente coerenti con il dataset su piccola scala sottostante, ma dovrebbero anche avere una sufficiente diversità compositiva. Per superare il primo ostacolo, allineiamo le generazioni del modello T2A con il dataset su piccola scala utilizzando l'ottimizzazione delle preferenze. Ciò garantisce che le caratteristiche acustiche dei dati generati rimangano coerenti con il dataset su piccola scala. Per affrontare il secondo ostacolo, proponiamo una nuova tecnica di generazione di didascalie che sfrutta le capacità di ragionamento dei Grandi Modelli Linguistici per (1) generare didascalie audio diverse e significative e (2) affinare iterativamente la loro qualità. Le didascalie generate vengono quindi utilizzate per sollecitare il modello T2A allineato. Valutiamo ampiamente Synthio su dieci dataset e quattro impostazioni simulate di dati limitati. I risultati indicano che il nostro metodo supera costantemente tutti i riferimenti del 0,1% al 39% utilizzando un modello T2A addestrato solo su AudioSet debolmente descritto.
English
We present Synthio, a novel approach for augmenting small-scale audio
classification datasets with synthetic data. Our goal is to improve audio
classification accuracy with limited labeled data. Traditional data
augmentation techniques, which apply artificial transformations (e.g., adding
random noise or masking segments), struggle to create data that captures the
true diversity present in real-world audios. To address this shortcoming, we
propose to augment the dataset with synthetic audio generated from
text-to-audio (T2A) diffusion models. However, synthesizing effective
augmentations is challenging because not only should the generated data be
acoustically consistent with the underlying small-scale dataset, but they
should also have sufficient compositional diversity. To overcome the first
challenge, we align the generations of the T2A model with the small-scale
dataset using preference optimization. This ensures that the acoustic
characteristics of the generated data remain consistent with the small-scale
dataset. To address the second challenge, we propose a novel caption generation
technique that leverages the reasoning capabilities of Large Language Models to
(1) generate diverse and meaningful audio captions and (2) iteratively refine
their quality. The generated captions are then used to prompt the aligned T2A
model. We extensively evaluate Synthio on ten datasets and four simulated
limited-data settings. Results indicate our method consistently outperforms all
baselines by 0.1%-39% using a T2A model trained only on weakly-captioned
AudioSet.