Whisper-AT: Reconhecedores Automáticos de Fala Robustos a Ruídos Também são Excelentes Classificadores de Eventos de Áudio Geral
Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers
July 6, 2023
Autores: Yuan Gong, Sameer Khurana, Leonid Karlinsky, James Glass
cs.AI
Resumo
Neste artigo, focamos no Whisper, um modelo recente de reconhecimento automático de fala treinado com um extenso corpus de 680 mil horas de fala rotulada, gravado em diversas condições. Primeiramente, apresentamos uma descoberta interessante: embora o Whisper seja bastante robusto contra sons de fundo do mundo real (por exemplo, música), sua representação de áudio não é invariante ao ruído, mas sim altamente correlacionada com sons não verbais, indicando que o Whisper reconhece a fala condicionada ao tipo de ruído. Com base nessa descoberta, construímos um modelo unificado de etiquetagem de áudio e reconhecimento de fala, o Whisper-AT, congelando a estrutura principal do Whisper e treinando um modelo leve de etiquetagem de áudio sobre ela. Com um custo computacional adicional de <1%, o Whisper-AT é capaz de reconhecer eventos de áudio, além de texto falado, em uma única passagem direta.
English
In this paper, we focus on Whisper, a recent automatic speech recognition
model trained with a massive 680k hour labeled speech corpus recorded in
diverse conditions. We first show an interesting finding that while Whisper is
very robust against real-world background sounds (e.g., music), its audio
representation is actually not noise-invariant, but is instead highly
correlated to non-speech sounds, indicating that Whisper recognizes speech
conditioned on the noise type. With this finding, we build a unified audio
tagging and speech recognition model Whisper-AT by freezing the backbone of
Whisper, and training a lightweight audio tagging model on top of it. With <1%
extra computational cost, Whisper-AT can recognize audio events, in addition to
spoken text, in a single forward pass.