ChatPaper.aiChatPaper

Synthio: Aumentando Conjuntos de Dados de Classificação de Áudio em Pequena Escala com Dados Sintéticos

Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data

October 2, 2024
Autores: Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha
cs.AI

Resumo

Apresentamos o Synthio, uma abordagem inovadora para aumentar conjuntos de dados de classificação de áudio em pequena escala com dados sintéticos. Nosso objetivo é melhorar a precisão da classificação de áudio com dados rotulados limitados. Técnicas tradicionais de aumento de dados, que aplicam transformações artificiais (por exemplo, adicionar ruído aleatório ou mascarar segmentos), têm dificuldade em criar dados que capturem a verdadeira diversidade presente em áudios do mundo real. Para lidar com essa limitação, propomos aumentar o conjunto de dados com áudios sintéticos gerados a partir de modelos de difusão de texto para áudio (T2A). No entanto, sintetizar aumentos eficazes é desafiador, pois os dados gerados não só devem ser acusticamente consistentes com o conjunto de dados em pequena escala subjacente, mas também devem ter diversidade composicional suficiente. Para superar o primeiro desafio, alinhamos as gerações do modelo T2A com o conjunto de dados em pequena escala usando otimização de preferência. Isso garante que as características acústicas dos dados gerados permaneçam consistentes com o conjunto de dados em pequena escala. Para abordar o segundo desafio, propomos uma técnica inovadora de geração de legendas que aproveita as capacidades de raciocínio de Modelos de Linguagem Grandes para (1) gerar legendas de áudio diversas e significativas e (2) refinar iterativamente sua qualidade. As legendas geradas são então usadas para solicitar o modelo T2A alinhado. Avaliamos extensivamente o Synthio em dez conjuntos de dados e quatro configurações simuladas de dados limitados. Os resultados indicam que nosso método consistentemente supera todos os baselines em 0,1% - 39% usando um modelo T2A treinado apenas em áudios do AudioSet fracamente legendados.
English
We present Synthio, a novel approach for augmenting small-scale audio classification datasets with synthetic data. Our goal is to improve audio classification accuracy with limited labeled data. Traditional data augmentation techniques, which apply artificial transformations (e.g., adding random noise or masking segments), struggle to create data that captures the true diversity present in real-world audios. To address this shortcoming, we propose to augment the dataset with synthetic audio generated from text-to-audio (T2A) diffusion models. However, synthesizing effective augmentations is challenging because not only should the generated data be acoustically consistent with the underlying small-scale dataset, but they should also have sufficient compositional diversity. To overcome the first challenge, we align the generations of the T2A model with the small-scale dataset using preference optimization. This ensures that the acoustic characteristics of the generated data remain consistent with the small-scale dataset. To address the second challenge, we propose a novel caption generation technique that leverages the reasoning capabilities of Large Language Models to (1) generate diverse and meaningful audio captions and (2) iteratively refine their quality. The generated captions are then used to prompt the aligned T2A model. We extensively evaluate Synthio on ten datasets and four simulated limited-data settings. Results indicate our method consistently outperforms all baselines by 0.1%-39% using a T2A model trained only on weakly-captioned AudioSet.

Summary

AI-Generated Summary

PDF62November 16, 2024