Whisper-AT: Los Reconocedores Automáticos de Voz Robustos al Ruido También son Etiquetadores Fuertes de Eventos de Audio Generales
Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers
July 6, 2023
Autores: Yuan Gong, Sameer Khurana, Leonid Karlinsky, James Glass
cs.AI
Resumen
En este artículo, nos centramos en Whisper, un modelo reciente de reconocimiento automático del habla entrenado con un corpus masivo de 680k horas de habla etiquetada grabada en condiciones diversas. Primero mostramos un hallazgo interesante: aunque Whisper es muy robusto frente a sonidos de fondo del mundo real (por ejemplo, música), su representación de audio en realidad no es invariante al ruido, sino que está altamente correlacionada con sonidos no vocales, lo que indica que Whisper reconoce el habla condicionado al tipo de ruido. Con este hallazgo, construimos un modelo unificado de etiquetado de audio y reconocimiento del habla, Whisper-AT, mediante la congelación del backbone de Whisper y el entrenamiento de un modelo ligero de etiquetado de audio sobre él. Con un costo computacional adicional de <1%, Whisper-AT puede reconocer eventos de audio, además de texto hablado, en una sola pasada hacia adelante.
English
In this paper, we focus on Whisper, a recent automatic speech recognition
model trained with a massive 680k hour labeled speech corpus recorded in
diverse conditions. We first show an interesting finding that while Whisper is
very robust against real-world background sounds (e.g., music), its audio
representation is actually not noise-invariant, but is instead highly
correlated to non-speech sounds, indicating that Whisper recognizes speech
conditioned on the noise type. With this finding, we build a unified audio
tagging and speech recognition model Whisper-AT by freezing the backbone of
Whisper, and training a lightweight audio tagging model on top of it. With <1%
extra computational cost, Whisper-AT can recognize audio events, in addition to
spoken text, in a single forward pass.