Whisper-AT: Reconhecedores Automáticos de Fala Robustos a Ruídos Também são Excelentes Classificadores de Eventos de Áudio Geral

Resumo

Neste artigo, focamos no Whisper, um modelo recente de reconhecimento automático de fala treinado com um extenso corpus de 680 mil horas de fala rotulada, gravado em diversas condições. Primeiramente, apresentamos uma descoberta interessante: embora o Whisper seja bastante robusto contra sons de fundo do mundo real (por exemplo, música), sua representação de áudio não é invariante ao ruído, mas sim altamente correlacionada com sons não verbais, indicando que o Whisper reconhece a fala condicionada ao tipo de ruído. Com base nessa descoberta, construímos um modelo unificado de etiquetagem de áudio e reconhecimento de fala, o Whisper-AT, congelando a estrutura principal do Whisper e treinando um modelo leve de etiquetagem de áudio sobre ela. Com um custo computacional adicional de <1%, o Whisper-AT é capaz de reconhecer eventos de áudio, além de texto falado, em uma única passagem direta.

English

In this paper, we focus on Whisper, a recent automatic speech recognition model trained with a massive 680k hour labeled speech corpus recorded in diverse conditions. We first show an interesting finding that while Whisper is very robust against real-world background sounds (e.g., music), its audio representation is actually not noise-invariant, but is instead highly correlated to non-speech sounds, indicating that Whisper recognizes speech conditioned on the noise type. With this finding, we build a unified audio tagging and speech recognition model Whisper-AT by freezing the backbone of Whisper, and training a lightweight audio tagging model on top of it. With <1% extra computational cost, Whisper-AT can recognize audio events, in addition to spoken text, in a single forward pass.

Whisper-AT: Reconhecedores Automáticos de Fala Robustos a Ruídos Também são Excelentes Classificadores de Eventos de Áudio Geral

Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers

Resumo

Support