Whisper-AT: Los Reconocedores Automáticos de Voz Robustos al Ruido También son Etiquetadores Fuertes de Eventos de Audio Generales

Resumen

En este artículo, nos centramos en Whisper, un modelo reciente de reconocimiento automático del habla entrenado con un corpus masivo de 680k horas de habla etiquetada grabada en condiciones diversas. Primero mostramos un hallazgo interesante: aunque Whisper es muy robusto frente a sonidos de fondo del mundo real (por ejemplo, música), su representación de audio en realidad no es invariante al ruido, sino que está altamente correlacionada con sonidos no vocales, lo que indica que Whisper reconoce el habla condicionado al tipo de ruido. Con este hallazgo, construimos un modelo unificado de etiquetado de audio y reconocimiento del habla, Whisper-AT, mediante la congelación del backbone de Whisper y el entrenamiento de un modelo ligero de etiquetado de audio sobre él. Con un costo computacional adicional de <1%, Whisper-AT puede reconocer eventos de audio, además de texto hablado, en una sola pasada hacia adelante.

English

In this paper, we focus on Whisper, a recent automatic speech recognition model trained with a massive 680k hour labeled speech corpus recorded in diverse conditions. We first show an interesting finding that while Whisper is very robust against real-world background sounds (e.g., music), its audio representation is actually not noise-invariant, but is instead highly correlated to non-speech sounds, indicating that Whisper recognizes speech conditioned on the noise type. With this finding, we build a unified audio tagging and speech recognition model Whisper-AT by freezing the backbone of Whisper, and training a lightweight audio tagging model on top of it. With <1% extra computational cost, Whisper-AT can recognize audio events, in addition to spoken text, in a single forward pass.

Whisper-AT: Los Reconocedores Automáticos de Voz Robustos al Ruido También son Etiquetadores Fuertes de Eventos de Audio Generales

Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers

Resumen

Support