OpenBEATs: Un Codificatore Audio Generico Completamente Open-Source
OpenBEATs: A Fully Open-Source General-Purpose Audio Encoder
July 18, 2025
Autori: Shikhar Bharadwaj, Samuele Cornell, Kwanghee Choi, Satoru Fukayama, Hye-jin Shim, Soham Deshmukh, Shinji Watanabe
cs.AI
Abstract
La previsione di token mascherati è emersa come un potente obiettivo di pre-training attraverso linguaggio, visione e parlato, offrendo il potenziale di unificare queste diverse modalità attraverso un singolo compito di pre-training. Tuttavia, la sua applicazione per la comprensione audio generale rimane poco esplorata, con BEATs come unico esempio significativo. BEATs ha subito modifiche limitate a causa dell'assenza di codice open-source per il pre-training. Inoltre, BEATs è stato addestrato solo su AudioSet, limitando la sua applicabilità downstream più ampia. Per colmare queste lacune, presentiamo OpenBEATs, un framework open-source che estende BEATs attraverso il pre-training audio multi-dominio. Eseguiamo valutazioni complete su sei tipi di compiti, venticinque dataset e tre domini audio, inclusi compiti di ragionamento audio come risposta a domande audio, implicazione e descrizione. OpenBEATs raggiunge prestazioni all'avanguardia su sei dataset di bioacustica, due dataset di suoni ambientali e cinque dataset di ragionamento, superando modelli con oltre un miliardo di parametri con un quarto delle loro dimensioni. Questi risultati dimostrano l'efficacia dei dataset multi-dominio e del compito di previsione di token mascherati per apprendere rappresentazioni audio generiche. Per promuovere ulteriori ricerche e la riproducibilità, rilasciamo tutto il codice di pre-training e valutazione, checkpoint pre-addestrati e fine-tuned, e log di addestramento su https://shikhar-s.github.io/OpenBEATs.
English
Masked token prediction has emerged as a powerful pre-training objective
across language, vision, and speech, offering the potential to unify these
diverse modalities through a single pre-training task. However, its application
for general audio understanding remains underexplored, with BEATs being the
only notable example. BEATs has seen limited modifications due to the absence
of open-source pre-training code. Furthermore, BEATs was trained only on
AudioSet, restricting its broader downstream applicability. To address these
gaps, we present OpenBEATs, an open-source framework that extends BEATs via
multi-domain audio pre-training. We conduct comprehensive evaluations across
six types of tasks, twenty five datasets, and three audio domains, including
audio reasoning tasks such as audio question answering, entailment, and
captioning. OpenBEATs achieves state-of-the-art performance on six bioacoustics
datasets, two environmental sound datasets and five reasoning datasets,
performing better than models exceeding a billion parameters at one-fourth
their parameter size. These results demonstrate the effectiveness of
multi-domain datasets and masked token prediction task to learn general-purpose
audio representations. To promote further research and reproducibility, we
release all pre-training and evaluation code, pretrained and fine-tuned
checkpoints, and training logs at https://shikhar-s.github.io/OpenBEATs