Synthio: Aumentando conjuntos de datos de clasificación de audio a pequeña escala con datos sintéticos
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data
October 2, 2024
Autores: Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha
cs.AI
Resumen
Presentamos Synthio, un enfoque novedoso para aumentar conjuntos de datos de clasificación de audio a pequeña escala con datos sintéticos. Nuestro objetivo es mejorar la precisión de la clasificación de audio con datos etiquetados limitados. Las técnicas tradicionales de aumento de datos, que aplican transformaciones artificiales (por ejemplo, añadir ruido aleatorio o enmascarar segmentos), tienen dificultades para crear datos que capturen la verdadera diversidad presente en audios del mundo real. Para abordar esta limitación, proponemos aumentar el conjunto de datos con audio sintético generado a partir de modelos de difusión de texto a audio (T2A). Sin embargo, sintetizar aumentos efectivos es un desafío porque no solo el dato generado debe ser acústicamente consistente con el conjunto de datos a pequeña escala subyacente, sino que también debe tener suficiente diversidad compositiva. Para superar el primer desafío, alineamos las generaciones del modelo T2A con el conjunto de datos a pequeña escala utilizando optimización de preferencias. Esto garantiza que las características acústicas de los datos generados permanezcan consistentes con el conjunto de datos a pequeña escala. Para abordar el segundo desafío, proponemos una técnica novedosa de generación de subtítulos que aprovecha las capacidades de razonamiento de los Modelos de Lenguaje Grandes para (1) generar subtítulos de audio diversos y significativos y (2) refinar iterativamente su calidad. Los subtítulos generados se utilizan luego para incitar al modelo T2A alineado. Evaluamos exhaustivamente Synthio en diez conjuntos de datos y cuatro configuraciones simuladas de datos limitados. Los resultados indican que nuestro método supera consistentemente a todos los baselines en un rango de 0.1% a 39% utilizando un modelo T2A entrenado solo en AudioSet débilmente subtitulado.
English
We present Synthio, a novel approach for augmenting small-scale audio
classification datasets with synthetic data. Our goal is to improve audio
classification accuracy with limited labeled data. Traditional data
augmentation techniques, which apply artificial transformations (e.g., adding
random noise or masking segments), struggle to create data that captures the
true diversity present in real-world audios. To address this shortcoming, we
propose to augment the dataset with synthetic audio generated from
text-to-audio (T2A) diffusion models. However, synthesizing effective
augmentations is challenging because not only should the generated data be
acoustically consistent with the underlying small-scale dataset, but they
should also have sufficient compositional diversity. To overcome the first
challenge, we align the generations of the T2A model with the small-scale
dataset using preference optimization. This ensures that the acoustic
characteristics of the generated data remain consistent with the small-scale
dataset. To address the second challenge, we propose a novel caption generation
technique that leverages the reasoning capabilities of Large Language Models to
(1) generate diverse and meaningful audio captions and (2) iteratively refine
their quality. The generated captions are then used to prompt the aligned T2A
model. We extensively evaluate Synthio on ten datasets and four simulated
limited-data settings. Results indicate our method consistently outperforms all
baselines by 0.1%-39% using a T2A model trained only on weakly-captioned
AudioSet.Summary
AI-Generated Summary