OpenBEATs: Un Codificador de Audio de Propósito General Completamente de Código Abierto
OpenBEATs: A Fully Open-Source General-Purpose Audio Encoder
July 18, 2025
Autores: Shikhar Bharadwaj, Samuele Cornell, Kwanghee Choi, Satoru Fukayama, Hye-jin Shim, Soham Deshmukh, Shinji Watanabe
cs.AI
Resumen
La predicción de tokens enmascarados ha surgido como un objetivo de preentrenamiento poderoso en los ámbitos del lenguaje, la visión y el habla, ofreciendo el potencial de unificar estas diversas modalidades a través de una única tarea de preentrenamiento. Sin embargo, su aplicación para la comprensión general del audio sigue siendo poco explorada, siendo BEATs el único ejemplo notable. BEATs ha experimentado modificaciones limitadas debido a la ausencia de código de preentrenamiento de código abierto. Además, BEATs fue entrenado únicamente en AudioSet, lo que restringe su aplicabilidad descendente más amplia. Para abordar estas brechas, presentamos OpenBEATs, un marco de código abierto que extiende BEATs mediante el preentrenamiento de audio en múltiples dominios. Realizamos evaluaciones exhaustivas en seis tipos de tareas, veinticinco conjuntos de datos y tres dominios de audio, incluyendo tareas de razonamiento de audio como la respuesta a preguntas de audio, implicación y generación de subtítulos. OpenBEATs logra un rendimiento de vanguardia en seis conjuntos de datos de bioacústica, dos conjuntos de datos de sonidos ambientales y cinco conjuntos de datos de razonamiento, superando a modelos que superan los mil millones de parámetros con un cuarto de su tamaño de parámetros. Estos resultados demuestran la efectividad de los conjuntos de datos de múltiples dominios y la tarea de predicción de tokens enmascarados para aprender representaciones de audio de propósito general. Para promover más investigación y reproducibilidad, publicamos todo el código de preentrenamiento y evaluación, puntos de control preentrenados y ajustados, y registros de entrenamiento en https://shikhar-s.github.io/OpenBEATs.
English
Masked token prediction has emerged as a powerful pre-training objective
across language, vision, and speech, offering the potential to unify these
diverse modalities through a single pre-training task. However, its application
for general audio understanding remains underexplored, with BEATs being the
only notable example. BEATs has seen limited modifications due to the absence
of open-source pre-training code. Furthermore, BEATs was trained only on
AudioSet, restricting its broader downstream applicability. To address these
gaps, we present OpenBEATs, an open-source framework that extends BEATs via
multi-domain audio pre-training. We conduct comprehensive evaluations across
six types of tasks, twenty five datasets, and three audio domains, including
audio reasoning tasks such as audio question answering, entailment, and
captioning. OpenBEATs achieves state-of-the-art performance on six bioacoustics
datasets, two environmental sound datasets and five reasoning datasets,
performing better than models exceeding a billion parameters at one-fourth
their parameter size. These results demonstrate the effectiveness of
multi-domain datasets and masked token prediction task to learn general-purpose
audio representations. To promote further research and reproducibility, we
release all pre-training and evaluation code, pretrained and fine-tuned
checkpoints, and training logs at https://shikhar-s.github.io/OpenBEATs