ChatPaper.aiChatPaper

OpenBEATs: Um Codificador de Áudio de Propósito Geral Totalmente de Código Aberto

OpenBEATs: A Fully Open-Source General-Purpose Audio Encoder

July 18, 2025
Autores: Shikhar Bharadwaj, Samuele Cornell, Kwanghee Choi, Satoru Fukayama, Hye-jin Shim, Soham Deshmukh, Shinji Watanabe
cs.AI

Resumo

A previsão de tokens mascarados emergiu como um objetivo poderoso de pré-treinamento em linguagem, visão e fala, oferecendo o potencial de unificar essas diversas modalidades por meio de uma única tarefa de pré-treinamento. No entanto, sua aplicação para o entendimento geral de áudio permanece pouco explorada, com BEATs sendo o único exemplo notável. BEATs teve modificações limitadas devido à ausência de código aberto de pré-treinamento. Além disso, BEATs foi treinado apenas no AudioSet, restringindo sua aplicabilidade mais ampla em tarefas subsequentes. Para abordar essas lacunas, apresentamos OpenBEATs, uma estrutura de código aberto que estende BEATs por meio de pré-treinamento de áudio em múltiplos domínios. Realizamos avaliações abrangentes em seis tipos de tarefas, vinte e cinco conjuntos de dados e três domínios de áudio, incluindo tarefas de raciocínio de áudio, como resposta a perguntas, implicação e legendagem de áudio. OpenBEATs alcança desempenho de ponta em seis conjuntos de dados de bioacústica, dois conjuntos de dados de sons ambientais e cinco conjuntos de dados de raciocínio, superando modelos com mais de um bilhão de parâmetros com apenas um quarto do tamanho de seus parâmetros. Esses resultados demonstram a eficácia de conjuntos de dados de múltiplos domínios e da tarefa de previsão de tokens mascarados para aprender representações de áudio de propósito geral. Para promover mais pesquisas e reprodutibilidade, disponibilizamos todo o código de pré-treinamento e avaliação, checkpoints pré-treinados e ajustados, e logs de treinamento em https://shikhar-s.github.io/OpenBEATs.
English
Masked token prediction has emerged as a powerful pre-training objective across language, vision, and speech, offering the potential to unify these diverse modalities through a single pre-training task. However, its application for general audio understanding remains underexplored, with BEATs being the only notable example. BEATs has seen limited modifications due to the absence of open-source pre-training code. Furthermore, BEATs was trained only on AudioSet, restricting its broader downstream applicability. To address these gaps, we present OpenBEATs, an open-source framework that extends BEATs via multi-domain audio pre-training. We conduct comprehensive evaluations across six types of tasks, twenty five datasets, and three audio domains, including audio reasoning tasks such as audio question answering, entailment, and captioning. OpenBEATs achieves state-of-the-art performance on six bioacoustics datasets, two environmental sound datasets and five reasoning datasets, performing better than models exceeding a billion parameters at one-fourth their parameter size. These results demonstrate the effectiveness of multi-domain datasets and masked token prediction task to learn general-purpose audio representations. To promote further research and reproducibility, we release all pre-training and evaluation code, pretrained and fine-tuned checkpoints, and training logs at https://shikhar-s.github.io/OpenBEATs
PDF81July 21, 2025