Синтио: Дополнение небольших наборов данных классификации аудио синтетическими данными
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data
October 2, 2024
Авторы: Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha
cs.AI
Аннотация
Мы представляем Synthio, новый подход к дополнению небольших наборов данных для классификации звука синтетическими данными. Наша цель - повысить точность классификации звука при ограниченном количестве размеченных данных. Традиционные методы дополнения данных, которые применяют искусственные преобразования (например, добавление случайного шума или маскирование сегментов), испытывают трудности в создании данных, отражающих истинное разнообразие, присутствующее в аудио реального мира. Для решения этого недостатка мы предлагаем дополнить набор данных синтетическими аудио, сгенерированными из моделей диффузии текста в аудио (T2A). Однако синтез эффективных дополнений представляет собой сложную задачу, поскольку сгенерированные данные должны быть не только акустически согласованы с базовым набором данных малого масштаба, но и обладать достаточным композиционным разнообразием. Для преодоления первого вызова мы выравниваем генерации модели T2A с набором данных малого масштаба с использованием оптимизации предпочтений. Это обеспечивает сохранение акустических характеристик сгенерированных данных в соответствии с набором данных малого масштаба. Для решения второй проблемы мы предлагаем новую технику генерации подписей, которая использует возможности рассуждения крупных языковых моделей для (1) генерации разнообразных и содержательных аудио-подписей и (2) итеративного улучшения их качества. Сгенерированные подписи затем используются для подтолкнуть выровненную модель T2A. Мы подробно оцениваем Synthio на десяти наборах данных и четырех симулированных ограниченных сценариях данных. Результаты показывают, что наш метод последовательно превосходит все базовые показатели на 0.1%-39%, используя модель T2A, обученную только на слабо подписанных AudioSet.
English
We present Synthio, a novel approach for augmenting small-scale audio
classification datasets with synthetic data. Our goal is to improve audio
classification accuracy with limited labeled data. Traditional data
augmentation techniques, which apply artificial transformations (e.g., adding
random noise or masking segments), struggle to create data that captures the
true diversity present in real-world audios. To address this shortcoming, we
propose to augment the dataset with synthetic audio generated from
text-to-audio (T2A) diffusion models. However, synthesizing effective
augmentations is challenging because not only should the generated data be
acoustically consistent with the underlying small-scale dataset, but they
should also have sufficient compositional diversity. To overcome the first
challenge, we align the generations of the T2A model with the small-scale
dataset using preference optimization. This ensures that the acoustic
characteristics of the generated data remain consistent with the small-scale
dataset. To address the second challenge, we propose a novel caption generation
technique that leverages the reasoning capabilities of Large Language Models to
(1) generate diverse and meaningful audio captions and (2) iteratively refine
their quality. The generated captions are then used to prompt the aligned T2A
model. We extensively evaluate Synthio on ten datasets and four simulated
limited-data settings. Results indicate our method consistently outperforms all
baselines by 0.1%-39% using a T2A model trained only on weakly-captioned
AudioSet.Summary
AI-Generated Summary