Whisper-AT : Les systèmes de reconnaissance automatique de la parole robustes au bruit sont également de puissants étiqueteurs d'événements audio généraux
Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers
July 6, 2023
Auteurs: Yuan Gong, Sameer Khurana, Leonid Karlinsky, James Glass
cs.AI
Résumé
Dans cet article, nous nous concentrons sur Whisper, un modèle récent de reconnaissance automatique de la parole entraîné sur un corpus massif de 680 000 heures de parole annotée enregistrée dans des conditions variées. Nous montrons d'abord un résultat intéressant : bien que Whisper soit très robuste aux bruits de fond du monde réel (par exemple, la musique), sa représentation audio n'est en réalité pas invariante au bruit, mais est fortement corrélée aux sons non vocaux, ce qui indique que Whisper reconnaît la parole en fonction du type de bruit. Sur la base de cette découverte, nous construisons un modèle unifié de classification audio et de reconnaissance de la parole, Whisper-AT, en gelant l'architecture principale de Whisper et en entraînant un modèle léger de classification audio par-dessus. Avec un coût de calcul supplémentaire de moins de 1 %, Whisper-AT peut reconnaître des événements audio, en plus du texte parlé, en une seule passe avant.
English
In this paper, we focus on Whisper, a recent automatic speech recognition
model trained with a massive 680k hour labeled speech corpus recorded in
diverse conditions. We first show an interesting finding that while Whisper is
very robust against real-world background sounds (e.g., music), its audio
representation is actually not noise-invariant, but is instead highly
correlated to non-speech sounds, indicating that Whisper recognizes speech
conditioned on the noise type. With this finding, we build a unified audio
tagging and speech recognition model Whisper-AT by freezing the backbone of
Whisper, and training a lightweight audio tagging model on top of it. With <1%
extra computational cost, Whisper-AT can recognize audio events, in addition to
spoken text, in a single forward pass.