ChatPaper.aiChatPaper

OpenBEATs: Ein vollständig quelloffener, allgemeiner Audio-Encoder

OpenBEATs: A Fully Open-Source General-Purpose Audio Encoder

July 18, 2025
papers.authors: Shikhar Bharadwaj, Samuele Cornell, Kwanghee Choi, Satoru Fukayama, Hye-jin Shim, Soham Deshmukh, Shinji Watanabe
cs.AI

papers.abstract

Die Vorhersage maskierter Token hat sich als leistungsstarkes Pre-Training-Ziel in den Bereichen Sprache, Vision und Sprache etabliert und bietet das Potenzial, diese verschiedenen Modalitäten durch eine einzige Pre-Training-Aufgabe zu vereinheitlichen. Ihre Anwendung für das allgemeine Audioverständnis bleibt jedoch weitgehend unerforscht, wobei BEATs das einzige bemerkenswerte Beispiel ist. BEATs wurde aufgrund des Fehlens von Open-Source-Pre-Training-Code nur begrenzt modifiziert. Darüber hinaus wurde BEATs ausschließlich auf AudioSet trainiert, was seine breitere Anwendbarkeit in nachgelagerten Aufgaben einschränkt. Um diese Lücken zu schließen, präsentieren wir OpenBEATs, ein Open-Source-Framework, das BEATs durch Multi-Domain-Audio-Pre-Training erweitert. Wir führen umfassende Bewertungen über sechs Arten von Aufgaben, fünfundzwanzig Datensätze und drei Audio-Domänen durch, einschließlich Audio-Argumentationsaufgaben wie Audio-Frage-Antwort, Implikation und Beschriftung. OpenBEATs erreicht state-of-the-art Leistungen auf sechs Bioakustik-Datensätzen, zwei Umweltgeräusch-Datensätzen und fünf Argumentations-Datensätzen und schneidet besser ab als Modelle mit mehr als einer Milliarde Parametern bei einem Viertel ihrer Parametergröße. Diese Ergebnisse demonstrieren die Effektivität von Multi-Domain-Datensätzen und der Aufgabe der Vorhersage maskierter Token, um allgemeine Audio-Repräsentationen zu erlernen. Um weitere Forschung und Reproduzierbarkeit zu fördern, veröffentlichen wir den gesamten Pre-Training- und Evaluierungscode, vortrainierte und feinabgestimmte Checkpoints sowie Trainingsprotokolle unter https://shikhar-s.github.io/OpenBEATs.
English
Masked token prediction has emerged as a powerful pre-training objective across language, vision, and speech, offering the potential to unify these diverse modalities through a single pre-training task. However, its application for general audio understanding remains underexplored, with BEATs being the only notable example. BEATs has seen limited modifications due to the absence of open-source pre-training code. Furthermore, BEATs was trained only on AudioSet, restricting its broader downstream applicability. To address these gaps, we present OpenBEATs, an open-source framework that extends BEATs via multi-domain audio pre-training. We conduct comprehensive evaluations across six types of tasks, twenty five datasets, and three audio domains, including audio reasoning tasks such as audio question answering, entailment, and captioning. OpenBEATs achieves state-of-the-art performance on six bioacoustics datasets, two environmental sound datasets and five reasoning datasets, performing better than models exceeding a billion parameters at one-fourth their parameter size. These results demonstrate the effectiveness of multi-domain datasets and masked token prediction task to learn general-purpose audio representations. To promote further research and reproducibility, we release all pre-training and evaluation code, pretrained and fine-tuned checkpoints, and training logs at https://shikhar-s.github.io/OpenBEATs
PDF81July 21, 2025