ChatPaper.aiChatPaper

USAD: Универсальное представление речи и звука через дистилляцию

USAD: Universal Speech and Audio Representation via Distillation

June 23, 2025
Авторы: Heng-Jui Chang, Saurabhchand Bhati, James Glass, Alexander H. Liu
cs.AI

Аннотация

Самообучение (SSL) произвело революцию в представлениях аудиоданных, однако модели часто остаются узкоспециализированными, сосредотачиваясь либо на задачах, связанных с речью, либо на задачах, не связанных с речью. В данной работе мы представляем универсальный подход к обучению представлений аудиоданных — Universal Speech and Audio Distillation (USAD), который объединяет различные типы аудио (речь, звуки и музыку) в единую модель. USAD использует эффективное послойное дистилляционное обучение от узкоспециализированных SSL-моделей для тренировки студенческой модели на обширном наборе аудиоданных. USAD демонстрирует конкурентоспособные результаты на различных бенчмарках и наборах данных, включая задачи обработки речи на уровне фреймов и экземпляров, классификацию аудио и звуков, достигая результатов, близких к современным, с использованием одного энкодера на бенчмарках SUPERB и HEAR.
English
Self-supervised learning (SSL) has revolutionized audio representations, yet models often remain domain-specific, focusing on either speech or non-speech tasks. In this work, we present Universal Speech and Audio Distillation (USAD), a unified approach to audio representation learning that integrates diverse audio types - speech, sound, and music - into a single model. USAD employs efficient layer-to-layer distillation from domain-specific SSL models to train a student on a comprehensive audio dataset. USAD offers competitive performance across various benchmarks and datasets, including frame and instance-level speech processing tasks, audio tagging, and sound classification, achieving near state-of-the-art results with a single encoder on SUPERB and HEAR benchmarks.
PDF91June 25, 2025