ChatPaper.aiChatPaper

USAD: Representación Universal de Voz y Audio mediante Destilación

USAD: Universal Speech and Audio Representation via Distillation

June 23, 2025
Autores: Heng-Jui Chang, Saurabhchand Bhati, James Glass, Alexander H. Liu
cs.AI

Resumen

El aprendizaje auto-supervisado (SSL, por sus siglas en inglés) ha revolucionado las representaciones de audio, aunque los modelos suelen ser específicos de dominio, centrándose en tareas de habla o no habla. En este trabajo, presentamos la Distilación Universal de Habla y Audio (USAD, por sus siglas en inglés), un enfoque unificado para el aprendizaje de representaciones de audio que integra diversos tipos de audio —habla, sonido y música— en un solo modelo. USAD emplea una distilación eficiente de capa a capa a partir de modelos SSL específicos de dominio para entrenar un estudiante en un conjunto de datos de audio exhaustivo. USAD ofrece un rendimiento competitivo en varios benchmarks y conjuntos de datos, incluyendo tareas de procesamiento de habla a nivel de marco e instancia, etiquetado de audio y clasificación de sonidos, logrando resultados cercanos al estado del arte con un solo codificador en los benchmarks SUPERB y HEAR.
English
Self-supervised learning (SSL) has revolutionized audio representations, yet models often remain domain-specific, focusing on either speech or non-speech tasks. In this work, we present Universal Speech and Audio Distillation (USAD), a unified approach to audio representation learning that integrates diverse audio types - speech, sound, and music - into a single model. USAD employs efficient layer-to-layer distillation from domain-specific SSL models to train a student on a comprehensive audio dataset. USAD offers competitive performance across various benchmarks and datasets, including frame and instance-level speech processing tasks, audio tagging, and sound classification, achieving near state-of-the-art results with a single encoder on SUPERB and HEAR benchmarks.
PDF91June 25, 2025