Whisper-AT : Les systèmes de reconnaissance automatique de la parole robustes au bruit sont également de puissants étiqueteurs d'événements audio généraux

Résumé

Dans cet article, nous nous concentrons sur Whisper, un modèle récent de reconnaissance automatique de la parole entraîné sur un corpus massif de 680 000 heures de parole annotée enregistrée dans des conditions variées. Nous montrons d'abord un résultat intéressant : bien que Whisper soit très robuste aux bruits de fond du monde réel (par exemple, la musique), sa représentation audio n'est en réalité pas invariante au bruit, mais est fortement corrélée aux sons non vocaux, ce qui indique que Whisper reconnaît la parole en fonction du type de bruit. Sur la base de cette découverte, nous construisons un modèle unifié de classification audio et de reconnaissance de la parole, Whisper-AT, en gelant l'architecture principale de Whisper et en entraînant un modèle léger de classification audio par-dessus. Avec un coût de calcul supplémentaire de moins de 1 %, Whisper-AT peut reconnaître des événements audio, en plus du texte parlé, en une seule passe avant.

English

In this paper, we focus on Whisper, a recent automatic speech recognition model trained with a massive 680k hour labeled speech corpus recorded in diverse conditions. We first show an interesting finding that while Whisper is very robust against real-world background sounds (e.g., music), its audio representation is actually not noise-invariant, but is instead highly correlated to non-speech sounds, indicating that Whisper recognizes speech conditioned on the noise type. With this finding, we build a unified audio tagging and speech recognition model Whisper-AT by freezing the backbone of Whisper, and training a lightweight audio tagging model on top of it. With <1% extra computational cost, Whisper-AT can recognize audio events, in addition to spoken text, in a single forward pass.

Whisper-AT : Les systèmes de reconnaissance automatique de la parole robustes au bruit sont également de puissants étiqueteurs d'événements audio généraux

Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers

Résumé

Support