OpenBEATs: Um Codificador de Áudio de Propósito Geral Totalmente de Código Aberto
OpenBEATs: A Fully Open-Source General-Purpose Audio Encoder
July 18, 2025
Autores: Shikhar Bharadwaj, Samuele Cornell, Kwanghee Choi, Satoru Fukayama, Hye-jin Shim, Soham Deshmukh, Shinji Watanabe
cs.AI
Resumo
A previsão de tokens mascarados emergiu como um objetivo poderoso de pré-treinamento em linguagem, visão e fala, oferecendo o potencial de unificar essas diversas modalidades por meio de uma única tarefa de pré-treinamento. No entanto, sua aplicação para o entendimento geral de áudio permanece pouco explorada, com BEATs sendo o único exemplo notável. BEATs teve modificações limitadas devido à ausência de código aberto de pré-treinamento. Além disso, BEATs foi treinado apenas no AudioSet, restringindo sua aplicabilidade mais ampla em tarefas subsequentes. Para abordar essas lacunas, apresentamos OpenBEATs, uma estrutura de código aberto que estende BEATs por meio de pré-treinamento de áudio em múltiplos domínios. Realizamos avaliações abrangentes em seis tipos de tarefas, vinte e cinco conjuntos de dados e três domínios de áudio, incluindo tarefas de raciocínio de áudio, como resposta a perguntas, implicação e legendagem de áudio. OpenBEATs alcança desempenho de ponta em seis conjuntos de dados de bioacústica, dois conjuntos de dados de sons ambientais e cinco conjuntos de dados de raciocínio, superando modelos com mais de um bilhão de parâmetros com apenas um quarto do tamanho de seus parâmetros. Esses resultados demonstram a eficácia de conjuntos de dados de múltiplos domínios e da tarefa de previsão de tokens mascarados para aprender representações de áudio de propósito geral. Para promover mais pesquisas e reprodutibilidade, disponibilizamos todo o código de pré-treinamento e avaliação, checkpoints pré-treinados e ajustados, e logs de treinamento em https://shikhar-s.github.io/OpenBEATs.
English
Masked token prediction has emerged as a powerful pre-training objective
across language, vision, and speech, offering the potential to unify these
diverse modalities through a single pre-training task. However, its application
for general audio understanding remains underexplored, with BEATs being the
only notable example. BEATs has seen limited modifications due to the absence
of open-source pre-training code. Furthermore, BEATs was trained only on
AudioSet, restricting its broader downstream applicability. To address these
gaps, we present OpenBEATs, an open-source framework that extends BEATs via
multi-domain audio pre-training. We conduct comprehensive evaluations across
six types of tasks, twenty five datasets, and three audio domains, including
audio reasoning tasks such as audio question answering, entailment, and
captioning. OpenBEATs achieves state-of-the-art performance on six bioacoustics
datasets, two environmental sound datasets and five reasoning datasets,
performing better than models exceeding a billion parameters at one-fourth
their parameter size. These results demonstrate the effectiveness of
multi-domain datasets and masked token prediction task to learn general-purpose
audio representations. To promote further research and reproducibility, we
release all pre-training and evaluation code, pretrained and fine-tuned
checkpoints, and training logs at https://shikhar-s.github.io/OpenBEATs