Whisper-AT: Ruisbestendige automatische spraakherkenningssystemen zijn ook krachtige algemene audio-event-taggers
Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers
July 6, 2023
Auteurs: Yuan Gong, Sameer Khurana, Leonid Karlinsky, James Glass
cs.AI
Samenvatting
In dit artikel richten we ons op Whisper, een recent automatisch spraakherkenningsmodel dat is getraind met een enorme gelabelde spraakcorpus van 680k uur, opgenomen onder diverse omstandigheden. We tonen eerst een interessant inzicht: hoewel Whisper zeer robuust is tegen real-world achtergrondgeluiden (bijvoorbeeld muziek), is de audioweergave ervan eigenlijk niet ruis-invariant, maar juist sterk gecorreleerd aan niet-spraakgeluiden, wat erop wijst dat Whisper spraak herkent afhankelijk van het type ruis. Met dit inzicht bouwen we een geïntegreerd model voor audiolabeling en spraakherkenning, Whisper-AT, door de backbone van Whisper te bevriezen en er een lichtgewicht audiolabelingsmodel bovenop te trainen. Met minder dan 1% extra rekenkosten kan Whisper-AT audio-events herkennen, naast gesproken tekst, in een enkele voorwaartse pass.
English
In this paper, we focus on Whisper, a recent automatic speech recognition
model trained with a massive 680k hour labeled speech corpus recorded in
diverse conditions. We first show an interesting finding that while Whisper is
very robust against real-world background sounds (e.g., music), its audio
representation is actually not noise-invariant, but is instead highly
correlated to non-speech sounds, indicating that Whisper recognizes speech
conditioned on the noise type. With this finding, we build a unified audio
tagging and speech recognition model Whisper-AT by freezing the backbone of
Whisper, and training a lightweight audio tagging model on top of it. With <1%
extra computational cost, Whisper-AT can recognize audio events, in addition to
spoken text, in a single forward pass.