USAD: Универсальное представление речи и звука через дистилляцию
USAD: Universal Speech and Audio Representation via Distillation
June 23, 2025
Авторы: Heng-Jui Chang, Saurabhchand Bhati, James Glass, Alexander H. Liu
cs.AI
Аннотация
Самообучение (SSL) произвело революцию в представлениях аудиоданных, однако модели часто остаются узкоспециализированными, сосредотачиваясь либо на задачах, связанных с речью, либо на задачах, не связанных с речью. В данной работе мы представляем универсальный подход к обучению представлений аудиоданных — Universal Speech and Audio Distillation (USAD), который объединяет различные типы аудио (речь, звуки и музыку) в единую модель. USAD использует эффективное послойное дистилляционное обучение от узкоспециализированных SSL-моделей для тренировки студенческой модели на обширном наборе аудиоданных. USAD демонстрирует конкурентоспособные результаты на различных бенчмарках и наборах данных, включая задачи обработки речи на уровне фреймов и экземпляров, классификацию аудио и звуков, достигая результатов, близких к современным, с использованием одного энкодера на бенчмарках SUPERB и HEAR.
English
Self-supervised learning (SSL) has revolutionized audio representations, yet
models often remain domain-specific, focusing on either speech or non-speech
tasks. In this work, we present Universal Speech and Audio Distillation (USAD),
a unified approach to audio representation learning that integrates diverse
audio types - speech, sound, and music - into a single model. USAD employs
efficient layer-to-layer distillation from domain-specific SSL models to train
a student on a comprehensive audio dataset. USAD offers competitive performance
across various benchmarks and datasets, including frame and instance-level
speech processing tasks, audio tagging, and sound classification, achieving
near state-of-the-art results with a single encoder on SUPERB and HEAR
benchmarks.