Whisper-AT: I riconoscitori automatici del parlato robusti al rumore sono anche validi classificatori generici di eventi audio
Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers
July 6, 2023
Autori: Yuan Gong, Sameer Khurana, Leonid Karlinsky, James Glass
cs.AI
Abstract
In questo articolo, ci concentriamo su Whisper, un recente modello di riconoscimento vocale automatico addestrato su un ampio corpus di 680k ore di discorsi etichettati registrati in condizioni diverse. Iniziamo mostrando un risultato interessante: sebbene Whisper sia molto robusto rispetto ai rumori di fondo del mondo reale (ad esempio, la musica), la sua rappresentazione audio non è in realtà invariante al rumore, ma è invece altamente correlata ai suoni non vocali, indicando che Whisper riconosce il parlato condizionato dal tipo di rumore. Sulla base di questa scoperta, costruiamo un modello unificato per l'etichettatura audio e il riconoscimento vocale, Whisper-AT, congelando la struttura principale di Whisper e addestrando un modello leggero per l'etichettatura audio sopra di esso. Con un costo computazionale aggiuntivo inferiore all'1%, Whisper-AT è in grado di riconoscere eventi audio, oltre al testo parlato, in un singolo passaggio in avanti.
English
In this paper, we focus on Whisper, a recent automatic speech recognition
model trained with a massive 680k hour labeled speech corpus recorded in
diverse conditions. We first show an interesting finding that while Whisper is
very robust against real-world background sounds (e.g., music), its audio
representation is actually not noise-invariant, but is instead highly
correlated to non-speech sounds, indicating that Whisper recognizes speech
conditioned on the noise type. With this finding, we build a unified audio
tagging and speech recognition model Whisper-AT by freezing the backbone of
Whisper, and training a lightweight audio tagging model on top of it. With <1%
extra computational cost, Whisper-AT can recognize audio events, in addition to
spoken text, in a single forward pass.