USAD : Représentation Universelle de la Parole et de l’Audio par Distillation

papers.abstract

L'apprentissage auto-supervisé (SSL) a révolutionné les représentations audio, mais les modèles restent souvent spécifiques à un domaine, se concentrant soit sur des tâches de parole, soit sur des tâches non liées à la parole. Dans ce travail, nous présentons Universal Speech and Audio Distillation (USAD), une approche unifiée pour l'apprentissage de représentations audio qui intègre divers types de données audio - parole, sons et musique - dans un seul modèle. USAD utilise une distillation efficace de couche à couche à partir de modèles SSL spécifiques à un domaine pour entraîner un étudiant sur un ensemble de données audio complet. USAD offre des performances compétitives sur divers benchmarks et ensembles de données, incluant des tâches de traitement de la parole au niveau des trames et des instances, ainsi que des tâches d'étiquetage audio et de classification de sons, atteignant des résultats proches de l'état de l'art avec un seul encodeur sur les benchmarks SUPERB et HEAR.

English

Self-supervised learning (SSL) has revolutionized audio representations, yet models often remain domain-specific, focusing on either speech or non-speech tasks. In this work, we present Universal Speech and Audio Distillation (USAD), a unified approach to audio representation learning that integrates diverse audio types - speech, sound, and music - into a single model. USAD employs efficient layer-to-layer distillation from domain-specific SSL models to train a student on a comprehensive audio dataset. USAD offers competitive performance across various benchmarks and datasets, including frame and instance-level speech processing tasks, audio tagging, and sound classification, achieving near state-of-the-art results with a single encoder on SUPERB and HEAR benchmarks.

USAD : Représentation Universelle de la Parole et de l’Audio par Distillation

USAD: Universal Speech and Audio Representation via Distillation

papers.abstract

Support