ChatPaper.aiChatPaper

OpenBEATs: Полностью открытый универсальный аудиоэнкодер

OpenBEATs: A Fully Open-Source General-Purpose Audio Encoder

July 18, 2025
Авторы: Shikhar Bharadwaj, Samuele Cornell, Kwanghee Choi, Satoru Fukayama, Hye-jin Shim, Soham Deshmukh, Shinji Watanabe
cs.AI

Аннотация

Предсказание маскированных токенов стало мощной задачей предварительного обучения для языковых, визуальных и речевых моделей, предлагая потенциал для объединения этих разнообразных модальностей через единую задачу предварительного обучения. Однако его применение для общего понимания аудио остается недостаточно изученным, и BEATs является единственным заметным примером. BEATs претерпел ограниченные модификации из-за отсутствия открытого кода для предварительного обучения. Более того, BEATs обучался только на наборе данных AudioSet, что ограничивает его применимость для более широкого круга задач. Чтобы устранить эти пробелы, мы представляем OpenBEATs — открытую платформу, которая расширяет BEATs за счет предварительного обучения на мультидоменных аудиоданных. Мы проводим всесторонние оценки на шести типах задач, двадцати пяти наборах данных и трех аудиодоменах, включая задачи аудио-рассуждений, такие как ответы на вопросы по аудио, вывод и генерация описаний. OpenBEATs достигает наилучших результатов на шести биоакустических наборах данных, двух наборах данных по окружающим звукам и пяти наборах данных для рассуждений, превосходя модели с более чем миллиардом параметров при четверти их размера. Эти результаты демонстрируют эффективность мультидоменных наборов данных и задачи предсказания маскированных токенов для обучения универсальных аудиопредставлений. Для содействия дальнейшим исследованиям и воспроизводимости мы публикуем весь код для предварительного обучения и оценки, предобученные и дообученные контрольные точки, а также журналы обучения на сайте https://shikhar-s.github.io/OpenBEATs.
English
Masked token prediction has emerged as a powerful pre-training objective across language, vision, and speech, offering the potential to unify these diverse modalities through a single pre-training task. However, its application for general audio understanding remains underexplored, with BEATs being the only notable example. BEATs has seen limited modifications due to the absence of open-source pre-training code. Furthermore, BEATs was trained only on AudioSet, restricting its broader downstream applicability. To address these gaps, we present OpenBEATs, an open-source framework that extends BEATs via multi-domain audio pre-training. We conduct comprehensive evaluations across six types of tasks, twenty five datasets, and three audio domains, including audio reasoning tasks such as audio question answering, entailment, and captioning. OpenBEATs achieves state-of-the-art performance on six bioacoustics datasets, two environmental sound datasets and five reasoning datasets, performing better than models exceeding a billion parameters at one-fourth their parameter size. These results demonstrate the effectiveness of multi-domain datasets and masked token prediction task to learn general-purpose audio representations. To promote further research and reproducibility, we release all pre-training and evaluation code, pretrained and fine-tuned checkpoints, and training logs at https://shikhar-s.github.io/OpenBEATs
PDF81July 21, 2025