USAD: Rappresentazione Universale del Parlato e dell'Audio tramite Distillazione
USAD: Universal Speech and Audio Representation via Distillation
June 23, 2025
Autori: Heng-Jui Chang, Saurabhchand Bhati, James Glass, Alexander H. Liu
cs.AI
Abstract
L'apprendimento auto-supervisionato (SSL) ha rivoluzionato le rappresentazioni audio, ma i modelli spesso rimangono specifici per dominio, concentrandosi su compiti legati al parlato o al non-parlato. In questo lavoro, presentiamo Universal Speech and Audio Distillation (USAD), un approccio unificato per l'apprendimento di rappresentazioni audio che integra diversi tipi di audio - parlato, suoni e musica - in un unico modello. USAD utilizza una distillazione efficiente strato per strato da modelli SSL specifici per dominio per addestrare uno studente su un dataset audio completo. USAD offre prestazioni competitive su vari benchmark e dataset, inclusi compiti di elaborazione del parlato a livello di frame e di istanza, etichettatura audio e classificazione dei suoni, raggiungendo risultati quasi all'avanguardia con un singolo encoder sui benchmark SUPERB e HEAR.
English
Self-supervised learning (SSL) has revolutionized audio representations, yet
models often remain domain-specific, focusing on either speech or non-speech
tasks. In this work, we present Universal Speech and Audio Distillation (USAD),
a unified approach to audio representation learning that integrates diverse
audio types - speech, sound, and music - into a single model. USAD employs
efficient layer-to-layer distillation from domain-specific SSL models to train
a student on a comprehensive audio dataset. USAD offers competitive performance
across various benchmarks and datasets, including frame and instance-level
speech processing tasks, audio tagging, and sound classification, achieving
near state-of-the-art results with a single encoder on SUPERB and HEAR
benchmarks.