BeepBank-500: Синтетический мини-корпус звуковых сигналов для исследования звукового оформления интерфейсов и психоакустических исследований
BeepBank-500: A Synthetic Earcon Mini-Corpus for UI Sound Research and Psychoacoustics Research
September 21, 2025
Авторы: Mandip Goswami
cs.AI
Аннотация
Мы представляем BeepBank-500 — компактный, полностью синтетический набор данных звуковых сигналов/оповещений (300–500 клипов), предназначенный для быстрого и юридически чистого экспериментирования в области взаимодействия человека с компьютером и машинного обучения для аудио. Каждый клип генерируется по параметрическому рецепту, который управляет семейством волновых форм (синусоида, прямоугольная, треугольная, FM), основной частотой, длительностью, огибающей амплитуды, амплитудной модуляцией (AM) и легкой реверберацией в стиле Шредера. Мы используем три настройки реверберации: сухая (dry) и два синтетических помещения, обозначенных как 'rir small' ('малое') и 'rir medium' ('среднее') в тексте статьи и метаданных. Мы публикуем монофонические аудиофайлы в формате WAV (48 кГц, 16 бит), подробную таблицу метаданных (сигнальные/спектральные характеристики) и минимальные воспроизводимые базовые модели для (i) классификации семейств волновых форм и (ii) регрессии основной частоты (f0) для одиночных тонов. Корпус ориентирован на задачи, такие как классификация звуковых сигналов, анализ тембра и обнаружение начала звука, с четко указанными лицензиями и ограничениями. Аудио передано в общественное достояние через лицензию CC0-1.0; код распространяется под лицензией MIT. DOI данных: https://doi.org/10.5281/zenodo.17172015. Код: https://github.com/mandip42/earcons-mini-500.
English
We introduce BeepBank-500, a compact, fully synthetic earcon/alert dataset
(300-500 clips) designed for rapid, rights-clean experimentation in
human-computer interaction and audio machine learning. Each clip is generated
from a parametric recipe controlling waveform family (sine, square, triangle,
FM), fundamental frequency, duration, amplitude envelope, amplitude modulation
(AM), and lightweight Schroeder-style reverberation. We use three reverberation
settings: dry, and two synthetic rooms denoted 'rir small' ('small') and 'rir
medium' ('medium') throughout the paper and in the metadata. We release mono 48
kHz WAV audio (16-bit), a rich metadata table (signal/spectral features), and
tiny reproducible baselines for (i) waveform-family classification and (ii) f0
regression on single tones. The corpus targets tasks such as earcon
classification, timbre analyses, and onset detection, with clearly stated
licensing and limitations. Audio is dedicated to the public domain via CC0-1.0;
code is under MIT. Data DOI: https://doi.org/10.5281/zenodo.17172015. Code:
https://github.com/mandip42/earcons-mini-500.