ChatPaper.aiChatPaper

USAD: Universelle Sprach- und Audio-Repräsentation durch Distillation

USAD: Universal Speech and Audio Representation via Distillation

June 23, 2025
Autoren: Heng-Jui Chang, Saurabhchand Bhati, James Glass, Alexander H. Liu
cs.AI

Zusammenfassung

Self-supervised Learning (SSL) hat die Art und Weise, wie Audio-Repräsentationen erlernt werden, revolutioniert, doch bleiben Modelle oft domänenspezifisch und konzentrieren sich entweder auf Sprach- oder Nicht-Sprach-Aufgaben. In dieser Arbeit präsentieren wir Universal Speech and Audio Distillation (USAD), einen einheitlichen Ansatz für das Erlernen von Audio-Repräsentationen, der verschiedene Audio-Typen – Sprache, Klänge und Musik – in einem einzigen Modell integriert. USAD nutzt effiziente Layer-to-Layer-Distillation von domänenspezifischen SSL-Modellen, um ein Studentenmodell auf einem umfassenden Audio-Datensatz zu trainieren. USAD bietet wettbewerbsfähige Leistung über verschiedene Benchmarks und Datensätze hinweg, einschließlich Frame- und Instanz-Level-Sprachverarbeitungsaufgaben, Audio-Tagging und Klassifikation von Klängen, und erzielt nahezu state-of-the-art Ergebnisse mit einem einzigen Encoder auf den SUPERB- und HEAR-Benchmarks.
English
Self-supervised learning (SSL) has revolutionized audio representations, yet models often remain domain-specific, focusing on either speech or non-speech tasks. In this work, we present Universal Speech and Audio Distillation (USAD), a unified approach to audio representation learning that integrates diverse audio types - speech, sound, and music - into a single model. USAD employs efficient layer-to-layer distillation from domain-specific SSL models to train a student on a comprehensive audio dataset. USAD offers competitive performance across various benchmarks and datasets, including frame and instance-level speech processing tasks, audio tagging, and sound classification, achieving near state-of-the-art results with a single encoder on SUPERB and HEAR benchmarks.
PDF91June 25, 2025