Whisper-AT: Ruisbestendige automatische spraakherkenningssystemen zijn ook krachtige algemene audio-event-taggers

Samenvatting

In dit artikel richten we ons op Whisper, een recent automatisch spraakherkenningsmodel dat is getraind met een enorme gelabelde spraakcorpus van 680k uur, opgenomen onder diverse omstandigheden. We tonen eerst een interessant inzicht: hoewel Whisper zeer robuust is tegen real-world achtergrondgeluiden (bijvoorbeeld muziek), is de audioweergave ervan eigenlijk niet ruis-invariant, maar juist sterk gecorreleerd aan niet-spraakgeluiden, wat erop wijst dat Whisper spraak herkent afhankelijk van het type ruis. Met dit inzicht bouwen we een geïntegreerd model voor audiolabeling en spraakherkenning, Whisper-AT, door de backbone van Whisper te bevriezen en er een lichtgewicht audiolabelingsmodel bovenop te trainen. Met minder dan 1% extra rekenkosten kan Whisper-AT audio-events herkennen, naast gesproken tekst, in een enkele voorwaartse pass.

English

In this paper, we focus on Whisper, a recent automatic speech recognition model trained with a massive 680k hour labeled speech corpus recorded in diverse conditions. We first show an interesting finding that while Whisper is very robust against real-world background sounds (e.g., music), its audio representation is actually not noise-invariant, but is instead highly correlated to non-speech sounds, indicating that Whisper recognizes speech conditioned on the noise type. With this finding, we build a unified audio tagging and speech recognition model Whisper-AT by freezing the backbone of Whisper, and training a lightweight audio tagging model on top of it. With <1% extra computational cost, Whisper-AT can recognize audio events, in addition to spoken text, in a single forward pass.

Whisper-AT: Ruisbestendige automatische spraakherkenningssystemen zijn ook krachtige algemene audio-event-taggers

Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers

Samenvatting

Support