USAD: 蒸留による普遍的音声・音響表現
USAD: Universal Speech and Audio Representation via Distillation
June 23, 2025
著者: Heng-Jui Chang, Saurabhchand Bhati, James Glass, Alexander H. Liu
cs.AI
要旨
自己教師あり学習(SSL)は音声表現に革命をもたらしたが、モデルはしばしばドメイン特化型であり、音声または非音声タスクのいずれかに焦点を当てている。本研究では、Universal Speech and Audio Distillation(USAD)を提案する。これは、音声、音響、音楽といった多様な音声タイプを単一のモデルに統合する、音声表現学習の統一的なアプローチである。USADは、ドメイン特化型SSLモデルからの効率的なレイヤー間蒸留を活用し、包括的な音声データセットで学生モデルを訓練する。USADは、フレームレベルおよびインスタンスレベルの音声処理タスク、音声タグ付け、音響分類など、さまざまなベンチマークやデータセットにおいて競争力のある性能を発揮し、SUPERBおよびHEARベンチマークにおいて単一のエンコーダでほぼ最先端の結果を達成する。
English
Self-supervised learning (SSL) has revolutionized audio representations, yet
models often remain domain-specific, focusing on either speech or non-speech
tasks. In this work, we present Universal Speech and Audio Distillation (USAD),
a unified approach to audio representation learning that integrates diverse
audio types - speech, sound, and music - into a single model. USAD employs
efficient layer-to-layer distillation from domain-specific SSL models to train
a student on a comprehensive audio dataset. USAD offers competitive performance
across various benchmarks and datasets, including frame and instance-level
speech processing tasks, audio tagging, and sound classification, achieving
near state-of-the-art results with a single encoder on SUPERB and HEAR
benchmarks.