USAD: Representação Universal de Fala e Áudio via Destilação
USAD: Universal Speech and Audio Representation via Distillation
June 23, 2025
Autores: Heng-Jui Chang, Saurabhchand Bhati, James Glass, Alexander H. Liu
cs.AI
Resumo
O aprendizado auto-supervisionado (SSL, na sigla em inglês) revolucionou as representações de áudio, mas os modelos frequentemente permanecem específicos de domínio, focando em tarefas de fala ou não fala. Neste trabalho, apresentamos a Distilação Universal de Fala e Áudio (USAD, na sigla em inglês), uma abordagem unificada para o aprendizado de representações de áudio que integra diversos tipos de áudio — fala, som e música — em um único modelo. A USAD emprega uma eficiente distilação camada a camada a partir de modelos SSL específicos de domínio para treinar um modelo estudante em um conjunto de dados de áudio abrangente. A USAD oferece desempenho competitivo em vários benchmarks e conjuntos de dados, incluindo tarefas de processamento de fala em nível de quadro e instância, etiquetagem de áudio e classificação de sons, alcançando resultados próximos ao estado da arte com um único codificador nos benchmarks SUPERB e HEAR.
English
Self-supervised learning (SSL) has revolutionized audio representations, yet
models often remain domain-specific, focusing on either speech or non-speech
tasks. In this work, we present Universal Speech and Audio Distillation (USAD),
a unified approach to audio representation learning that integrates diverse
audio types - speech, sound, and music - into a single model. USAD employs
efficient layer-to-layer distillation from domain-specific SSL models to train
a student on a comprehensive audio dataset. USAD offers competitive performance
across various benchmarks and datasets, including frame and instance-level
speech processing tasks, audio tagging, and sound classification, achieving
near state-of-the-art results with a single encoder on SUPERB and HEAR
benchmarks.