USAD : Représentation Universelle de la Parole et de l’Audio par Distillation
USAD: Universal Speech and Audio Representation via Distillation
June 23, 2025
Auteurs: Heng-Jui Chang, Saurabhchand Bhati, James Glass, Alexander H. Liu
cs.AI
Résumé
L'apprentissage auto-supervisé (SSL) a révolutionné les représentations audio, mais les modèles restent souvent spécifiques à un domaine, se concentrant soit sur des tâches de parole, soit sur des tâches non liées à la parole. Dans ce travail, nous présentons Universal Speech and Audio Distillation (USAD), une approche unifiée pour l'apprentissage de représentations audio qui intègre divers types de données audio - parole, sons et musique - dans un seul modèle. USAD utilise une distillation efficace de couche à couche à partir de modèles SSL spécifiques à un domaine pour entraîner un étudiant sur un ensemble de données audio complet. USAD offre des performances compétitives sur divers benchmarks et ensembles de données, incluant des tâches de traitement de la parole au niveau des trames et des instances, ainsi que des tâches d'étiquetage audio et de classification de sons, atteignant des résultats proches de l'état de l'art avec un seul encodeur sur les benchmarks SUPERB et HEAR.
English
Self-supervised learning (SSL) has revolutionized audio representations, yet
models often remain domain-specific, focusing on either speech or non-speech
tasks. In this work, we present Universal Speech and Audio Distillation (USAD),
a unified approach to audio representation learning that integrates diverse
audio types - speech, sound, and music - into a single model. USAD employs
efficient layer-to-layer distillation from domain-specific SSL models to train
a student on a comprehensive audio dataset. USAD offers competitive performance
across various benchmarks and datasets, including frame and instance-level
speech processing tasks, audio tagging, and sound classification, achieving
near state-of-the-art results with a single encoder on SUPERB and HEAR
benchmarks.