ChatPaper.aiChatPaper

위스퍼-AT: 잡음에 강한 자동 음성 인식기는 강력한 일반 오디오 이벤트 태거이기도 하다

Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers

July 6, 2023
저자: Yuan Gong, Sameer Khurana, Leonid Karlinsky, James Glass
cs.AI

초록

본 논문에서는 다양한 환경에서 기록된 680,000시간 규모의 레이블된 음성 코퍼스로 학습된 최신 자동 음성 인식 모델인 Whisper에 초점을 맞춘다. 먼저, Whisper가 실제 환경의 배경 소음(예: 음악)에 대해 매우 강인한 반면, 그 오디오 표현은 실제로 잡음 불변적이지 않고 비음성 소음과 높은 상관관계를 보인다는 흥미로운 발견을 제시한다. 이는 Whisper가 잡음 유형에 따라 음성을 인식함을 시사한다. 이러한 발견을 바탕으로, Whisper의 백본을 고정하고 그 위에 경량 오디오 태깅 모델을 학습시켜 통합 오디오 태깅 및 음성 인식 모델인 Whisper-AT를 구축한다. Whisper-AT는 추가 계산 비용의 1% 미만으로 단일 순방향 전파에서 음성 텍스트뿐만 아니라 오디오 이벤트도 인식할 수 있다.
English
In this paper, we focus on Whisper, a recent automatic speech recognition model trained with a massive 680k hour labeled speech corpus recorded in diverse conditions. We first show an interesting finding that while Whisper is very robust against real-world background sounds (e.g., music), its audio representation is actually not noise-invariant, but is instead highly correlated to non-speech sounds, indicating that Whisper recognizes speech conditioned on the noise type. With this finding, we build a unified audio tagging and speech recognition model Whisper-AT by freezing the backbone of Whisper, and training a lightweight audio tagging model on top of it. With <1% extra computational cost, Whisper-AT can recognize audio events, in addition to spoken text, in a single forward pass.
PDF100December 15, 2024