BeepBank-500: Een synthetische Earcon-minicorpus voor onderzoek naar UI-geluid en psychoakoestiek
BeepBank-500: A Synthetic Earcon Mini-Corpus for UI Sound Research and Psychoacoustics Research
September 21, 2025
Auteurs: Mandip Goswami
cs.AI
Samenvatting
We introduceren BeepBank-500, een compacte, volledig synthetische dataset van earcons/waarschuwingen (300-500 clips) die is ontworpen voor snelle, rechtenvrije experimenten in mens-computerinteractie en audio machine learning. Elke clip wordt gegenereerd vanuit een parametrisch recept dat de golfvormfamilie (sinus, blokgolf, driehoeksgolf, FM), grondfrequentie, duur, amplitude-envelop, amplitudemodulatie (AM) en lichte Schroeder-stijl reverberatie bepaalt. We gebruiken drie reverberatie-instellingen: droog, en twee synthetische ruimtes aangeduid als 'rir small' ('klein') en 'rir medium' ('medium') in het artikel en in de metadata. We publiceren mono 48 kHz WAV-audio (16-bit), een uitgebreide metadatatabel (signaal/spectrale kenmerken) en kleine reproduceerbare basislijnen voor (i) golfvormfamilieclassificatie en (ii) f0-regressie op enkele tonen. Het corpus richt zich op taken zoals earconclassificatie, timbreanalyses en onsetdetectie, met duidelijk vermelde licenties en beperkingen. De audio is vrijgegeven in het publieke domein via CC0-1.0; de code valt onder de MIT-licentie. Data DOI: https://doi.org/10.5281/zenodo.17172015. Code: https://github.com/mandip42/earcons-mini-500.
English
We introduce BeepBank-500, a compact, fully synthetic earcon/alert dataset
(300-500 clips) designed for rapid, rights-clean experimentation in
human-computer interaction and audio machine learning. Each clip is generated
from a parametric recipe controlling waveform family (sine, square, triangle,
FM), fundamental frequency, duration, amplitude envelope, amplitude modulation
(AM), and lightweight Schroeder-style reverberation. We use three reverberation
settings: dry, and two synthetic rooms denoted 'rir small' ('small') and 'rir
medium' ('medium') throughout the paper and in the metadata. We release mono 48
kHz WAV audio (16-bit), a rich metadata table (signal/spectral features), and
tiny reproducible baselines for (i) waveform-family classification and (ii) f0
regression on single tones. The corpus targets tasks such as earcon
classification, timbre analyses, and onset detection, with clearly stated
licensing and limitations. Audio is dedicated to the public domain via CC0-1.0;
code is under MIT. Data DOI: https://doi.org/10.5281/zenodo.17172015. Code:
https://github.com/mandip42/earcons-mini-500.