USAD: Universele Spraak- en Audio-representatie via Distillatie
USAD: Universal Speech and Audio Representation via Distillation
June 23, 2025
Auteurs: Heng-Jui Chang, Saurabhchand Bhati, James Glass, Alexander H. Liu
cs.AI
Samenvatting
Zelfgesuperviseerd leren (SSL) heeft een revolutie teweeggebracht in audio-representaties, maar modellen blijven vaak domeinspecifiek, gericht op spraak- of niet-spraaktaken. In dit werk presenteren we Universal Speech and Audio Distillation (USAD), een geïntegreerde aanpak voor het leren van audio-representaties die diverse audiotypen - spraak, geluid en muziek - verenigt in één model. USAD maakt gebruik van efficiënte laag-voor-laag-distillatie van domeinspecifieke SSL-modellen om een studentmodel te trainen op een uitgebreide audiodataset. USAD biedt competitieve prestaties op verschillende benchmarks en datasets, inclusief frame- en instantieniveau spraakverwerkingstaken, audiolabeling en geluidsclassificatie, en behaalt bijna state-of-the-art resultaten met een enkele encoder op de SUPERB- en HEAR-benchmarks.
English
Self-supervised learning (SSL) has revolutionized audio representations, yet
models often remain domain-specific, focusing on either speech or non-speech
tasks. In this work, we present Universal Speech and Audio Distillation (USAD),
a unified approach to audio representation learning that integrates diverse
audio types - speech, sound, and music - into a single model. USAD employs
efficient layer-to-layer distillation from domain-specific SSL models to train
a student on a comprehensive audio dataset. USAD offers competitive performance
across various benchmarks and datasets, including frame and instance-level
speech processing tasks, audio tagging, and sound classification, achieving
near state-of-the-art results with a single encoder on SUPERB and HEAR
benchmarks.