ChatPaper.aiChatPaper

Whisper-AT: Устойчивые к шуму системы автоматического распознавания речи также являются мощными универсальными классификаторами аудиособытий

Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers

July 6, 2023
Авторы: Yuan Gong, Sameer Khurana, Leonid Karlinsky, James Glass
cs.AI

Аннотация

В данной статье мы сосредоточимся на модели Whisper, недавно разработанной системе автоматического распознавания речи, обученной на обширном корпусе из 680 тысяч часов размеченных речевых данных, записанных в разнообразных условиях. Сначала мы демонстрируем интересное наблюдение: хотя Whisper демонстрирует высокую устойчивость к фоновым шумам в реальных условиях (например, к музыке), её аудиопредставление на самом деле не является инвариантным к шуму, а вместо этого сильно коррелирует с неречевыми звуками. Это указывает на то, что Whisper распознаёт речь с учётом типа шума. На основе этого наблюдения мы создаём унифицированную модель Whisper-AT для аудиотегирования и распознавания речи, замораживая основную архитектуру Whisper и обучая на её основе лёгкую модель аудиотегирования. При увеличении вычислительных затрат менее чем на 1% Whisper-AT способна распознавать как аудиособытия, так и произносимый текст за один прямой проход.
English
In this paper, we focus on Whisper, a recent automatic speech recognition model trained with a massive 680k hour labeled speech corpus recorded in diverse conditions. We first show an interesting finding that while Whisper is very robust against real-world background sounds (e.g., music), its audio representation is actually not noise-invariant, but is instead highly correlated to non-speech sounds, indicating that Whisper recognizes speech conditioned on the noise type. With this finding, we build a unified audio tagging and speech recognition model Whisper-AT by freezing the backbone of Whisper, and training a lightweight audio tagging model on top of it. With <1% extra computational cost, Whisper-AT can recognize audio events, in addition to spoken text, in a single forward pass.
PDF100December 15, 2024