Synthio: Erweiterung von kleinen Audio-Klassifikationsdatensätzen mit synthetischen Daten

papers.abstract

Wir präsentieren Synthio, einen neuartigen Ansatz zur Erweiterung von kleinen Audio-Klassifikationsdatensätzen mit synthetischen Daten. Unser Ziel ist es, die Genauigkeit der Audio-Klassifikation mit begrenzten gelabelten Daten zu verbessern. Traditionelle Datenerweiterungstechniken, die künstliche Transformationen anwenden (z. B. Hinzufügen von zufälligem Rauschen oder Maskieren von Segmenten), haben Schwierigkeiten, Daten zu erzeugen, die die wahre Vielfalt in realen Audios erfassen. Um diese Schwäche anzugehen, schlagen wir vor, den Datensatz mit synthetisch erzeugten Audios aus Text-zu-Audio (T2A) Diffusionsmodellen zu erweitern. Die Synthese effektiver Erweiterungen ist jedoch herausfordernd, da die erzeugten Daten nicht nur akustisch konsistent mit dem zugrunde liegenden kleinen Datensatz sein sollten, sondern auch über ausreichende kompositorische Vielfalt verfügen sollten. Um die erste Herausforderung zu überwinden, gleichen wir die Generationen des T2A-Modells mit dem kleinen Datensatz mithilfe der Präferenzoptimierung ab. Dies stellt sicher, dass die akustischen Merkmale der erzeugten Daten konsistent mit dem kleinen Datensatz bleiben. Um die zweite Herausforderung anzugehen, schlagen wir eine neuartige Technik zur Bildunterschriftsgenerierung vor, die die Argumentationsfähigkeiten großer Sprachmodelle nutzt, um (1) vielfältige und sinnvolle Audio-Unterschriften zu generieren und (2) iterativ deren Qualität zu verfeinern. Die generierten Bildunterschriften werden dann verwendet, um das abgestimmte T2A-Modell zu aktivieren. Wir evaluieren Synthio umfassend an zehn Datensätzen und vier simulierten begrenzten Dateneinstellungen. Die Ergebnisse zeigen, dass unsere Methode unter Verwendung eines nur schwach beschrifteten AudioSets trainierten T2A-Modells konsistent alle Baselines um 0,1 % bis 39 % übertrifft.

English

We present Synthio, a novel approach for augmenting small-scale audio classification datasets with synthetic data. Our goal is to improve audio classification accuracy with limited labeled data. Traditional data augmentation techniques, which apply artificial transformations (e.g., adding random noise or masking segments), struggle to create data that captures the true diversity present in real-world audios. To address this shortcoming, we propose to augment the dataset with synthetic audio generated from text-to-audio (T2A) diffusion models. However, synthesizing effective augmentations is challenging because not only should the generated data be acoustically consistent with the underlying small-scale dataset, but they should also have sufficient compositional diversity. To overcome the first challenge, we align the generations of the T2A model with the small-scale dataset using preference optimization. This ensures that the acoustic characteristics of the generated data remain consistent with the small-scale dataset. To address the second challenge, we propose a novel caption generation technique that leverages the reasoning capabilities of Large Language Models to (1) generate diverse and meaningful audio captions and (2) iteratively refine their quality. The generated captions are then used to prompt the aligned T2A model. We extensively evaluate Synthio on ten datasets and four simulated limited-data settings. Results indicate our method consistently outperforms all baselines by 0.1%-39% using a T2A model trained only on weakly-captioned AudioSet.

Synthio: Erweiterung von kleinen Audio-Klassifikationsdatensätzen mit synthetischen Daten

Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data

papers.abstract

Support