OpenBEATs : Un encodeur audio polyvalent entièrement open-source
OpenBEATs: A Fully Open-Source General-Purpose Audio Encoder
July 18, 2025
papers.authors: Shikhar Bharadwaj, Samuele Cornell, Kwanghee Choi, Satoru Fukayama, Hye-jin Shim, Soham Deshmukh, Shinji Watanabe
cs.AI
papers.abstract
La prédiction de tokens masqués s'est imposée comme un objectif de pré-entraînement puissant à travers les domaines du langage, de la vision et de la parole, offrant le potentiel d'unifier ces modalités diverses via une seule tâche de pré-entraînement. Cependant, son application pour la compréhension générale de l'audio reste peu explorée, BEATs étant le seul exemple notable. BEATs a subi peu de modifications en raison de l'absence de code de pré-entraînement open source. De plus, BEATs a été entraîné uniquement sur AudioSet, limitant ainsi son applicabilité en aval. Pour combler ces lacunes, nous présentons OpenBEATs, un framework open source qui étend BEATs via un pré-entraînement audio multi-domaines. Nous menons des évaluations exhaustives sur six types de tâches, vingt-cinq jeux de données et trois domaines audio, incluant des tâches de raisonnement audio telles que la réponse à des questions audio, l'implication et la génération de légendes. OpenBEATs atteint des performances de pointe sur six jeux de données en bioacoustique, deux jeux de données de sons environnementaux et cinq jeux de données de raisonnement, surpassant des modèles dépassant un milliard de paramètres avec seulement un quart de leur taille. Ces résultats démontrent l'efficacité des jeux de données multi-domaines et de la tâche de prédiction de tokens masqués pour apprendre des représentations audio à usage général. Pour favoriser la recherche et la reproductibilité, nous publions l'intégralité du code de pré-entraînement et d'évaluation, les points de contrôle pré-entraînés et affinés, ainsi que les journaux d'entraînement sur https://shikhar-s.github.io/OpenBEATs.
English
Masked token prediction has emerged as a powerful pre-training objective
across language, vision, and speech, offering the potential to unify these
diverse modalities through a single pre-training task. However, its application
for general audio understanding remains underexplored, with BEATs being the
only notable example. BEATs has seen limited modifications due to the absence
of open-source pre-training code. Furthermore, BEATs was trained only on
AudioSet, restricting its broader downstream applicability. To address these
gaps, we present OpenBEATs, an open-source framework that extends BEATs via
multi-domain audio pre-training. We conduct comprehensive evaluations across
six types of tasks, twenty five datasets, and three audio domains, including
audio reasoning tasks such as audio question answering, entailment, and
captioning. OpenBEATs achieves state-of-the-art performance on six bioacoustics
datasets, two environmental sound datasets and five reasoning datasets,
performing better than models exceeding a billion parameters at one-fourth
their parameter size. These results demonstrate the effectiveness of
multi-domain datasets and masked token prediction task to learn general-purpose
audio representations. To promote further research and reproducibility, we
release all pre-training and evaluation code, pretrained and fine-tuned
checkpoints, and training logs at https://shikhar-s.github.io/OpenBEATs