ChatPaper.aiChatPaper

OpenBEATs: Un Codificador de Audio de Propósito General Completamente de Código Abierto

OpenBEATs: A Fully Open-Source General-Purpose Audio Encoder

July 18, 2025
Autores: Shikhar Bharadwaj, Samuele Cornell, Kwanghee Choi, Satoru Fukayama, Hye-jin Shim, Soham Deshmukh, Shinji Watanabe
cs.AI

Resumen

La predicción de tokens enmascarados ha surgido como un objetivo de preentrenamiento poderoso en los ámbitos del lenguaje, la visión y el habla, ofreciendo el potencial de unificar estas diversas modalidades a través de una única tarea de preentrenamiento. Sin embargo, su aplicación para la comprensión general del audio sigue siendo poco explorada, siendo BEATs el único ejemplo notable. BEATs ha experimentado modificaciones limitadas debido a la ausencia de código de preentrenamiento de código abierto. Además, BEATs fue entrenado únicamente en AudioSet, lo que restringe su aplicabilidad descendente más amplia. Para abordar estas brechas, presentamos OpenBEATs, un marco de código abierto que extiende BEATs mediante el preentrenamiento de audio en múltiples dominios. Realizamos evaluaciones exhaustivas en seis tipos de tareas, veinticinco conjuntos de datos y tres dominios de audio, incluyendo tareas de razonamiento de audio como la respuesta a preguntas de audio, implicación y generación de subtítulos. OpenBEATs logra un rendimiento de vanguardia en seis conjuntos de datos de bioacústica, dos conjuntos de datos de sonidos ambientales y cinco conjuntos de datos de razonamiento, superando a modelos que superan los mil millones de parámetros con un cuarto de su tamaño de parámetros. Estos resultados demuestran la efectividad de los conjuntos de datos de múltiples dominios y la tarea de predicción de tokens enmascarados para aprender representaciones de audio de propósito general. Para promover más investigación y reproducibilidad, publicamos todo el código de preentrenamiento y evaluación, puntos de control preentrenados y ajustados, y registros de entrenamiento en https://shikhar-s.github.io/OpenBEATs.
English
Masked token prediction has emerged as a powerful pre-training objective across language, vision, and speech, offering the potential to unify these diverse modalities through a single pre-training task. However, its application for general audio understanding remains underexplored, with BEATs being the only notable example. BEATs has seen limited modifications due to the absence of open-source pre-training code. Furthermore, BEATs was trained only on AudioSet, restricting its broader downstream applicability. To address these gaps, we present OpenBEATs, an open-source framework that extends BEATs via multi-domain audio pre-training. We conduct comprehensive evaluations across six types of tasks, twenty five datasets, and three audio domains, including audio reasoning tasks such as audio question answering, entailment, and captioning. OpenBEATs achieves state-of-the-art performance on six bioacoustics datasets, two environmental sound datasets and five reasoning datasets, performing better than models exceeding a billion parameters at one-fourth their parameter size. These results demonstrate the effectiveness of multi-domain datasets and masked token prediction task to learn general-purpose audio representations. To promote further research and reproducibility, we release all pre-training and evaluation code, pretrained and fine-tuned checkpoints, and training logs at https://shikhar-s.github.io/OpenBEATs
PDF81July 21, 2025