OpenBEATs: Een volledig open-source, algemeen inzetbare audio-encoder
OpenBEATs: A Fully Open-Source General-Purpose Audio Encoder
July 18, 2025
Auteurs: Shikhar Bharadwaj, Samuele Cornell, Kwanghee Choi, Satoru Fukayama, Hye-jin Shim, Soham Deshmukh, Shinji Watanabe
cs.AI
Samenvatting
Het voorspellen van gemaskeerde tokens is naar voren gekomen als een krachtig pre-trainingsdoel voor taal, beeld en spraak, wat de potentie biedt om deze diverse modaliteiten te verenigen via een enkele pre-trainings taak. Echter, de toepassing ervan voor algemeen audio-begrip blijft onderbelicht, met BEATs als enige opvallende voorbeeld. BEATs heeft beperkte aanpassingen ondergaan vanwege het ontbreken van open-source pre-trainingscode. Bovendien is BEATs alleen getraind op AudioSet, wat de bredere downstream-toepasbaarheid beperkt. Om deze lacunes aan te pakken, presenteren we OpenBEATs, een open-source framework dat BEATs uitbreidt via multi-domein audio pre-training. We voeren uitgebreide evaluaties uit over zes soorten taken, vijfentwintig datasets en drie audio-domeinen, waaronder audio-redeneertaken zoals audio-vraagbeantwoording, entailment en captioning. OpenBEATs behaalt state-of-the-art prestaties op zes bioakoestische datasets, twee datasets voor omgevingsgeluid en vijf redeneerdatasets, en presteert beter dan modellen met meer dan een miljard parameters bij een kwart van hun parameteromvang. Deze resultaten tonen de effectiviteit aan van multi-domein datasets en de taak van het voorspellen van gemaskeerde tokens om algemene audio-representaties te leren. Om verder onderzoek en reproduceerbaarheid te bevorderen, geven we alle pre-trainings- en evaluatiecode, pre-getrainde en fijn afgestemde checkpoints, en trainingslogboeken vrij op https://shikhar-s.github.io/OpenBEATs.
English
Masked token prediction has emerged as a powerful pre-training objective
across language, vision, and speech, offering the potential to unify these
diverse modalities through a single pre-training task. However, its application
for general audio understanding remains underexplored, with BEATs being the
only notable example. BEATs has seen limited modifications due to the absence
of open-source pre-training code. Furthermore, BEATs was trained only on
AudioSet, restricting its broader downstream applicability. To address these
gaps, we present OpenBEATs, an open-source framework that extends BEATs via
multi-domain audio pre-training. We conduct comprehensive evaluations across
six types of tasks, twenty five datasets, and three audio domains, including
audio reasoning tasks such as audio question answering, entailment, and
captioning. OpenBEATs achieves state-of-the-art performance on six bioacoustics
datasets, two environmental sound datasets and five reasoning datasets,
performing better than models exceeding a billion parameters at one-fourth
their parameter size. These results demonstrate the effectiveness of
multi-domain datasets and masked token prediction task to learn general-purpose
audio representations. To promote further research and reproducibility, we
release all pre-training and evaluation code, pretrained and fine-tuned
checkpoints, and training logs at https://shikhar-s.github.io/OpenBEATs