Synthio: 合成データを用いた小規模オーディオ分類データセットの拡張
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data
October 2, 2024
著者: Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha
cs.AI
要旨
Synthioは、小規模なオーディオ分類データセットを合成データで拡張する革新的なアプローチを提案します。私たちの目標は、ラベル付きデータが限られている状況下でオーディオ分類の精度を向上させることです。従来のデータ拡張技術は、人工的な変換(例:ランダムノイズの追加やセグメントのマスキング)を適用するが、実世界のオーディオの真の多様性を捉えるデータを作成するのに苦労しています。この課題に対処するため、我々はテキストからオーディオ(T2A)拡散モデルから生成された合成オーディオでデータセットを拡張することを提案します。ただし、効果的な拡張を合成することは難しいです。なぜなら、生成されたデータは小規模データセットと音響的に整合性が取れるだけでなく、十分な構成的多様性を持つ必要があるからです。最初の課題に対処するために、T2Aモデルの生成を小規模データセットと一致させるために選好最適化を使用します。これにより、生成されたデータの音響特性が小規模データセットと整合性を保つことが確実となります。第二の課題に対処するために、大規模言語モデルの推論能力を活用した新しいキャプション生成技術を提案します。これにより、多様で意味のあるオーディオキャプションを生成し、その品質を反復的に改善します。生成されたキャプションは、一致したT2Aモデルを促すために使用されます。Synthioを10つのデータセットと4つのシミュレートされた限られたデータ設定で広範囲に評価しました。結果は、弱くキャプション付きのAudioSetでのみ訓練されたT2Aモデルを使用して、我々の手法がすべてのベースラインを0.1%〜39%常に上回ることを示しています。
English
We present Synthio, a novel approach for augmenting small-scale audio
classification datasets with synthetic data. Our goal is to improve audio
classification accuracy with limited labeled data. Traditional data
augmentation techniques, which apply artificial transformations (e.g., adding
random noise or masking segments), struggle to create data that captures the
true diversity present in real-world audios. To address this shortcoming, we
propose to augment the dataset with synthetic audio generated from
text-to-audio (T2A) diffusion models. However, synthesizing effective
augmentations is challenging because not only should the generated data be
acoustically consistent with the underlying small-scale dataset, but they
should also have sufficient compositional diversity. To overcome the first
challenge, we align the generations of the T2A model with the small-scale
dataset using preference optimization. This ensures that the acoustic
characteristics of the generated data remain consistent with the small-scale
dataset. To address the second challenge, we propose a novel caption generation
technique that leverages the reasoning capabilities of Large Language Models to
(1) generate diverse and meaningful audio captions and (2) iteratively refine
their quality. The generated captions are then used to prompt the aligned T2A
model. We extensively evaluate Synthio on ten datasets and four simulated
limited-data settings. Results indicate our method consistently outperforms all
baselines by 0.1%-39% using a T2A model trained only on weakly-captioned
AudioSet.Summary
AI-Generated Summary