Pengi: 오디오 작업을 위한 오디오 언어 모델
Pengi: An Audio Language Model for Audio Tasks
May 19, 2023
저자: Soham Deshmukh, Benjamin Elizalde, Rita Singh, Huaming Wang
cs.AI
초록
오디오 처리 분야에서 전이 학습(Transfer Learning)은 자기 지도 학습(Self-Supervised Learning)과 제로샷 학습(Zero-Shot Learning) 기술의 부상을 촉진했습니다. 이러한 접근 방식은 다양한 작업을 처리할 수 있는 다재다능한 모델의 개발로 이어졌으며, 최첨단 성능을 제공하고 있습니다. 그러나 현재의 모델은 오디오 캡셔닝(Audio Captioning)이나 오디오 질의응답(Audio Question & Answering)과 같은 개방형 작업에 필요한 언어를 생성하는 능력이 본질적으로 부족합니다. 우리는 Pengi라는 새로운 오디오 언어 모델을 소개합니다. 이 모델은 모든 오디오 작업을 텍스트 생성 작업으로 재구성하여 전이 학습을 활용합니다. Pengi는 오디오 녹음과 텍스트를 입력으로 받아 자유 형식의 텍스트를 출력으로 생성합니다. 입력 오디오는 오디오 인코더에 의해 연속적인 임베딩 시퀀스로 표현되며, 텍스트 인코더는 해당 텍스트 입력에 대해 동일한 작업을 수행합니다. 두 시퀀스는 사전 훈련된 고정 언어 모델을 프롬프트하기 위한 접두사로 결합됩니다. Pengi의 통합 아키텍처는 추가적인 미세 조정이나 작업별 확장 없이도 개방형 작업과 폐쇄형 작업을 모두 가능하게 합니다. 22개의 하위 작업에 대해 평가했을 때, 우리의 접근 방식은 여러 작업에서 최첨단 성능을 보여주었습니다. 우리의 결과는 언어 모델과 오디오 모델을 연결하는 것이 범용 오디오 이해를 향한 중요한 단계임을 보여줍니다.
English
In the domain of audio processing, Transfer Learning has facilitated the rise
of Self-Supervised Learning and Zero-Shot Learning techniques. These approaches
have led to the development of versatile models capable of tackling a wide
array of tasks, while delivering state-of-the-art performance. However, current
models inherently lack the capacity to produce the requisite language for
open-ended tasks, such as Audio Captioning or Audio Question & Answering. We
introduce Pengi, a novel Audio Language Model that leverages Transfer Learning
by framing all audio tasks as text-generation tasks. It takes as input, an
audio recording, and text, and generates free-form text as output. The input
audio is represented as a sequence of continuous embeddings by an audio
encoder. A text encoder does the same for the corresponding text input. Both
sequences are combined as a prefix to prompt a pre-trained frozen language
model. The unified architecture of Pengi enables open-ended tasks and
close-ended tasks without any additional fine-tuning or task-specific
extensions. When evaluated on 22 downstream tasks, our approach yields
state-of-the-art performance in several of them. Our results show that
connecting language models with audio models is a major step towards
general-purpose audio understanding