OpenBEATs: 완전 오픈소스 범용 오디오 인코더
OpenBEATs: A Fully Open-Source General-Purpose Audio Encoder
July 18, 2025
저자: Shikhar Bharadwaj, Samuele Cornell, Kwanghee Choi, Satoru Fukayama, Hye-jin Shim, Soham Deshmukh, Shinji Watanabe
cs.AI
초록
마스킹된 토큰 예측은 언어, 시각, 음성 분야에서 강력한 사전 학습 목표로 부상하며, 이러한 다양한 양식을 단일 사전 학습 작업을 통해 통합할 잠재력을 제공합니다. 그러나 일반 오디오 이해를 위한 적용은 아직 충분히 탐구되지 않았으며, BEATs가 유일한 주목할 만한 사례입니다. BEATs는 오픈소스 사전 학습 코드의 부재로 인해 제한된 수정만 이루어졌습니다. 또한, BEATs는 AudioSet에서만 학습되었기 때문에 더 넓은 하류 작업 적용성이 제한되었습니다. 이러한 격차를 해결하기 위해, 우리는 다중 도메인 오디오 사전 학습을 통해 BEATs를 확장한 오픈소스 프레임워크인 OpenBEATs를 제시합니다. 우리는 오디오 질의 응답, 함의, 캡셔닝과 같은 오디오 추론 작업을 포함하여 여섯 가지 유형의 작업, 스물다섯 개의 데이터셋, 세 가지 오디오 도메인에 걸쳐 포괄적인 평가를 수행했습니다. OpenBEATs는 여섯 개의 생물음향학 데이터셋, 두 개의 환경음 데이터셋, 그리고 다섯 개의 추론 데이터셋에서 최첨단 성능을 달성하며, 10억 개 이상의 파라미터를 가진 모델보다 4분의 1의 파라미터 크기로 더 나은 성능을 보였습니다. 이러한 결과는 다중 도메인 데이터셋과 마스킹된 토큰 예측 작업이 일반적인 목적의 오디오 표현을 학습하는 데 효과적임을 보여줍니다. 추가 연구와 재현성을 촉진하기 위해, 우리는 모든 사전 학습 및 평가 코드, 사전 학습 및 미세 조정된 체크포인트, 그리고 학습 로그를 https://shikhar-s.github.io/OpenBEATs에서 공개합니다.
English
Masked token prediction has emerged as a powerful pre-training objective
across language, vision, and speech, offering the potential to unify these
diverse modalities through a single pre-training task. However, its application
for general audio understanding remains underexplored, with BEATs being the
only notable example. BEATs has seen limited modifications due to the absence
of open-source pre-training code. Furthermore, BEATs was trained only on
AudioSet, restricting its broader downstream applicability. To address these
gaps, we present OpenBEATs, an open-source framework that extends BEATs via
multi-domain audio pre-training. We conduct comprehensive evaluations across
six types of tasks, twenty five datasets, and three audio domains, including
audio reasoning tasks such as audio question answering, entailment, and
captioning. OpenBEATs achieves state-of-the-art performance on six bioacoustics
datasets, two environmental sound datasets and five reasoning datasets,
performing better than models exceeding a billion parameters at one-fourth
their parameter size. These results demonstrate the effectiveness of
multi-domain datasets and masked token prediction task to learn general-purpose
audio representations. To promote further research and reproducibility, we
release all pre-training and evaluation code, pretrained and fine-tuned
checkpoints, and training logs at https://shikhar-s.github.io/OpenBEATs