Whisper-AT: Rauschrobuste automatische Spracherkennungssysteme sind auch leistungsstarke Generalisten in der Audio-Ereignis-Klassifizierung
Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers
July 6, 2023
Autoren: Yuan Gong, Sameer Khurana, Leonid Karlinsky, James Glass
cs.AI
Zusammenfassung
In diesem Artikel konzentrieren wir uns auf Whisper, ein kürzlich entwickeltes automatisches Spracherkennungsmodell, das mit einem umfangreichen, 680.000 Stunden umfassenden, annotierten Sprachkorpus trainiert wurde, der unter vielfältigen Bedingungen aufgenommen wurde. Wir zeigen zunächst eine interessante Erkenntnis: Obwohl Whisper sehr robust gegenüber realen Hintergrundgeräuschen (z. B. Musik) ist, ist seine Audio-Darstellung tatsächlich nicht rauschinvariant, sondern stark mit Nicht-Sprach-Geräuschen korreliert. Dies deutet darauf hin, dass Whisper Sprache in Abhängigkeit vom Rauschtyp erkennt. Aufbauend auf dieser Erkenntnis entwickeln wir ein einheitliches Modell für Audio-Tagging und Spracherkennung, Whisper-AT, indem wir das Rückgrat von Whisper einfrieren und ein leichtgewichtiges Audio-Tagging-Modell darauf trainieren. Mit einem zusätzlichen Rechenaufwand von weniger als 1 % kann Whisper-AT sowohl Audio-Ereignisse als auch gesprochenen Text in einem einzigen Vorwärtsdurchlauf erkennen.
English
In this paper, we focus on Whisper, a recent automatic speech recognition
model trained with a massive 680k hour labeled speech corpus recorded in
diverse conditions. We first show an interesting finding that while Whisper is
very robust against real-world background sounds (e.g., music), its audio
representation is actually not noise-invariant, but is instead highly
correlated to non-speech sounds, indicating that Whisper recognizes speech
conditioned on the noise type. With this finding, we build a unified audio
tagging and speech recognition model Whisper-AT by freezing the backbone of
Whisper, and training a lightweight audio tagging model on top of it. With <1%
extra computational cost, Whisper-AT can recognize audio events, in addition to
spoken text, in a single forward pass.