BeepBank-500: Синтетический мини-корпус звуковых сигналов для исследования звукового оформления интерфейсов и психоакустических исследований

Аннотация

Мы представляем BeepBank-500 — компактный, полностью синтетический набор данных звуковых сигналов/оповещений (300–500 клипов), предназначенный для быстрого и юридически чистого экспериментирования в области взаимодействия человека с компьютером и машинного обучения для аудио. Каждый клип генерируется по параметрическому рецепту, который управляет семейством волновых форм (синусоида, прямоугольная, треугольная, FM), основной частотой, длительностью, огибающей амплитуды, амплитудной модуляцией (AM) и легкой реверберацией в стиле Шредера. Мы используем три настройки реверберации: сухая (dry) и два синтетических помещения, обозначенных как 'rir small' ('малое') и 'rir medium' ('среднее') в тексте статьи и метаданных. Мы публикуем монофонические аудиофайлы в формате WAV (48 кГц, 16 бит), подробную таблицу метаданных (сигнальные/спектральные характеристики) и минимальные воспроизводимые базовые модели для (i) классификации семейств волновых форм и (ii) регрессии основной частоты (f0) для одиночных тонов. Корпус ориентирован на задачи, такие как классификация звуковых сигналов, анализ тембра и обнаружение начала звука, с четко указанными лицензиями и ограничениями. Аудио передано в общественное достояние через лицензию CC0-1.0; код распространяется под лицензией MIT. DOI данных: https://doi.org/10.5281/zenodo.17172015. Код: https://github.com/mandip42/earcons-mini-500.

English

We introduce BeepBank-500, a compact, fully synthetic earcon/alert dataset (300-500 clips) designed for rapid, rights-clean experimentation in human-computer interaction and audio machine learning. Each clip is generated from a parametric recipe controlling waveform family (sine, square, triangle, FM), fundamental frequency, duration, amplitude envelope, amplitude modulation (AM), and lightweight Schroeder-style reverberation. We use three reverberation settings: dry, and two synthetic rooms denoted 'rir small' ('small') and 'rir medium' ('medium') throughout the paper and in the metadata. We release mono 48 kHz WAV audio (16-bit), a rich metadata table (signal/spectral features), and tiny reproducible baselines for (i) waveform-family classification and (ii) f0 regression on single tones. The corpus targets tasks such as earcon classification, timbre analyses, and onset detection, with clearly stated licensing and limitations. Audio is dedicated to the public domain via CC0-1.0; code is under MIT. Data DOI: https://doi.org/10.5281/zenodo.17172015. Code: https://github.com/mandip42/earcons-mini-500.