ChatPaper.aiChatPaper

OpenBEATs: Een volledig open-source, algemeen inzetbare audio-encoder

OpenBEATs: A Fully Open-Source General-Purpose Audio Encoder

July 18, 2025
Auteurs: Shikhar Bharadwaj, Samuele Cornell, Kwanghee Choi, Satoru Fukayama, Hye-jin Shim, Soham Deshmukh, Shinji Watanabe
cs.AI

Samenvatting

Het voorspellen van gemaskeerde tokens is naar voren gekomen als een krachtig pre-trainingsdoel voor taal, beeld en spraak, wat de potentie biedt om deze diverse modaliteiten te verenigen via een enkele pre-trainings taak. Echter, de toepassing ervan voor algemeen audio-begrip blijft onderbelicht, met BEATs als enige opvallende voorbeeld. BEATs heeft beperkte aanpassingen ondergaan vanwege het ontbreken van open-source pre-trainingscode. Bovendien is BEATs alleen getraind op AudioSet, wat de bredere downstream-toepasbaarheid beperkt. Om deze lacunes aan te pakken, presenteren we OpenBEATs, een open-source framework dat BEATs uitbreidt via multi-domein audio pre-training. We voeren uitgebreide evaluaties uit over zes soorten taken, vijfentwintig datasets en drie audio-domeinen, waaronder audio-redeneertaken zoals audio-vraagbeantwoording, entailment en captioning. OpenBEATs behaalt state-of-the-art prestaties op zes bioakoestische datasets, twee datasets voor omgevingsgeluid en vijf redeneerdatasets, en presteert beter dan modellen met meer dan een miljard parameters bij een kwart van hun parameteromvang. Deze resultaten tonen de effectiviteit aan van multi-domein datasets en de taak van het voorspellen van gemaskeerde tokens om algemene audio-representaties te leren. Om verder onderzoek en reproduceerbaarheid te bevorderen, geven we alle pre-trainings- en evaluatiecode, pre-getrainde en fijn afgestemde checkpoints, en trainingslogboeken vrij op https://shikhar-s.github.io/OpenBEATs.
English
Masked token prediction has emerged as a powerful pre-training objective across language, vision, and speech, offering the potential to unify these diverse modalities through a single pre-training task. However, its application for general audio understanding remains underexplored, with BEATs being the only notable example. BEATs has seen limited modifications due to the absence of open-source pre-training code. Furthermore, BEATs was trained only on AudioSet, restricting its broader downstream applicability. To address these gaps, we present OpenBEATs, an open-source framework that extends BEATs via multi-domain audio pre-training. We conduct comprehensive evaluations across six types of tasks, twenty five datasets, and three audio domains, including audio reasoning tasks such as audio question answering, entailment, and captioning. OpenBEATs achieves state-of-the-art performance on six bioacoustics datasets, two environmental sound datasets and five reasoning datasets, performing better than models exceeding a billion parameters at one-fourth their parameter size. These results demonstrate the effectiveness of multi-domain datasets and masked token prediction task to learn general-purpose audio representations. To promote further research and reproducibility, we release all pre-training and evaluation code, pretrained and fine-tuned checkpoints, and training logs at https://shikhar-s.github.io/OpenBEATs
PDF91July 21, 2025