BeepBank-500 : Un mini-corpus synthétique d'earcons pour la recherche sur les sons d'interface utilisateur et la psychoacoustique
BeepBank-500: A Synthetic Earcon Mini-Corpus for UI Sound Research and Psychoacoustics Research
September 21, 2025
papers.authors: Mandip Goswami
cs.AI
papers.abstract
Nous présentons BeepBank-500, un ensemble de données compact et entièrement synthétique d'earcons/alertes (300 à 500 clips) conçu pour des expérimentations rapides et libres de droits en interaction homme-machine et en apprentissage automatique audio. Chaque clip est généré à partir d'une recette paramétrique contrôlant la famille d'ondes (sinusoïdale, carrée, triangulaire, FM), la fréquence fondamentale, la durée, l'enveloppe d'amplitude, la modulation d'amplitude (AM) et une réverbération légère de style Schroeder. Nous utilisons trois paramètres de réverbération : sec, et deux salles synthétiques désignées par 'rir small' ('petite') et 'rir medium' ('moyenne') tout au long de l'article et dans les métadonnées. Nous publions des fichiers audio mono en WAV 48 kHz (16 bits), une table de métadonnées riche (caractéristiques du signal/spectrales) et de petites bases de référence reproductibles pour (i) la classification des familles d'ondes et (ii) la régression de f0 sur des tons uniques. Le corpus vise des tâches telles que la classification d'earcons, l'analyse de timbre et la détection d'attaque, avec des licences et des limitations clairement énoncées. Les fichiers audio sont dédiés au domaine public via CC0-1.0 ; le code est sous licence MIT. DOI des données : https://doi.org/10.5281/zenodo.17172015. Code : https://github.com/mandip42/earcons-mini-500.
English
We introduce BeepBank-500, a compact, fully synthetic earcon/alert dataset
(300-500 clips) designed for rapid, rights-clean experimentation in
human-computer interaction and audio machine learning. Each clip is generated
from a parametric recipe controlling waveform family (sine, square, triangle,
FM), fundamental frequency, duration, amplitude envelope, amplitude modulation
(AM), and lightweight Schroeder-style reverberation. We use three reverberation
settings: dry, and two synthetic rooms denoted 'rir small' ('small') and 'rir
medium' ('medium') throughout the paper and in the metadata. We release mono 48
kHz WAV audio (16-bit), a rich metadata table (signal/spectral features), and
tiny reproducible baselines for (i) waveform-family classification and (ii) f0
regression on single tones. The corpus targets tasks such as earcon
classification, timbre analyses, and onset detection, with clearly stated
licensing and limitations. Audio is dedicated to the public domain via CC0-1.0;
code is under MIT. Data DOI: https://doi.org/10.5281/zenodo.17172015. Code:
https://github.com/mandip42/earcons-mini-500.