ChatPaper.aiChatPaper

BeepBank-500: Een synthetische Earcon-minicorpus voor onderzoek naar UI-geluid en psychoakoestiek

BeepBank-500: A Synthetic Earcon Mini-Corpus for UI Sound Research and Psychoacoustics Research

September 21, 2025
Auteurs: Mandip Goswami
cs.AI

Samenvatting

We introduceren BeepBank-500, een compacte, volledig synthetische dataset van earcons/waarschuwingen (300-500 clips) die is ontworpen voor snelle, rechtenvrije experimenten in mens-computerinteractie en audio machine learning. Elke clip wordt gegenereerd vanuit een parametrisch recept dat de golfvormfamilie (sinus, blokgolf, driehoeksgolf, FM), grondfrequentie, duur, amplitude-envelop, amplitudemodulatie (AM) en lichte Schroeder-stijl reverberatie bepaalt. We gebruiken drie reverberatie-instellingen: droog, en twee synthetische ruimtes aangeduid als 'rir small' ('klein') en 'rir medium' ('medium') in het artikel en in de metadata. We publiceren mono 48 kHz WAV-audio (16-bit), een uitgebreide metadatatabel (signaal/spectrale kenmerken) en kleine reproduceerbare basislijnen voor (i) golfvormfamilieclassificatie en (ii) f0-regressie op enkele tonen. Het corpus richt zich op taken zoals earconclassificatie, timbreanalyses en onsetdetectie, met duidelijk vermelde licenties en beperkingen. De audio is vrijgegeven in het publieke domein via CC0-1.0; de code valt onder de MIT-licentie. Data DOI: https://doi.org/10.5281/zenodo.17172015. Code: https://github.com/mandip42/earcons-mini-500.
English
We introduce BeepBank-500, a compact, fully synthetic earcon/alert dataset (300-500 clips) designed for rapid, rights-clean experimentation in human-computer interaction and audio machine learning. Each clip is generated from a parametric recipe controlling waveform family (sine, square, triangle, FM), fundamental frequency, duration, amplitude envelope, amplitude modulation (AM), and lightweight Schroeder-style reverberation. We use three reverberation settings: dry, and two synthetic rooms denoted 'rir small' ('small') and 'rir medium' ('medium') throughout the paper and in the metadata. We release mono 48 kHz WAV audio (16-bit), a rich metadata table (signal/spectral features), and tiny reproducible baselines for (i) waveform-family classification and (ii) f0 regression on single tones. The corpus targets tasks such as earcon classification, timbre analyses, and onset detection, with clearly stated licensing and limitations. Audio is dedicated to the public domain via CC0-1.0; code is under MIT. Data DOI: https://doi.org/10.5281/zenodo.17172015. Code: https://github.com/mandip42/earcons-mini-500.
PDF12September 23, 2025