BeepBank-500: Un Mini-Corpus Sintetico di Earcon per la Ricerca sui Suoni delle Interfacce Utente e sulla Psicoacustica
BeepBank-500: A Synthetic Earcon Mini-Corpus for UI Sound Research and Psychoacoustics Research
September 21, 2025
Autori: Mandip Goswami
cs.AI
Abstract
Presentiamo BeepBank-500, un dataset compatto e completamente sintetico di earcon/alert (300-500 clip) progettato per esperimenti rapidi e privi di restrizioni legali nell'interazione uomo-computer e nel machine learning audio. Ogni clip è generata da una ricetta parametrica che controlla la famiglia di forme d'onda (sinusoidale, quadra, triangolare, FM), la frequenza fondamentale, la durata, l'inviluppo di ampiezza, la modulazione di ampiezza (AM) e una leggera riverberazione in stile Schroeder. Utilizziamo tre impostazioni di riverberazione: secca, e due ambienti sintetici denominati 'rir small' ('piccolo') e 'rir medium' ('medio') nel corso del documento e nei metadati. Rilasciamo audio mono a 48 kHz in formato WAV (16-bit), una tabella di metadati ricca (caratteristiche del segnale/spettrali) e piccole baseline riproducibili per (i) la classificazione della famiglia di forme d'onda e (ii) la regressione di f0 su toni singoli. Il corpus è destinato a compiti come la classificazione di earcon, analisi del timbro e rilevamento degli onset, con licenze e limitazioni chiaramente indicate. L'audio è dedicato al pubblico dominio tramite CC0-1.0; il codice è sotto licenza MIT. DOI dei dati: https://doi.org/10.5281/zenodo.17172015. Codice: https://github.com/mandip42/earcons-mini-500.
English
We introduce BeepBank-500, a compact, fully synthetic earcon/alert dataset
(300-500 clips) designed for rapid, rights-clean experimentation in
human-computer interaction and audio machine learning. Each clip is generated
from a parametric recipe controlling waveform family (sine, square, triangle,
FM), fundamental frequency, duration, amplitude envelope, amplitude modulation
(AM), and lightweight Schroeder-style reverberation. We use three reverberation
settings: dry, and two synthetic rooms denoted 'rir small' ('small') and 'rir
medium' ('medium') throughout the paper and in the metadata. We release mono 48
kHz WAV audio (16-bit), a rich metadata table (signal/spectral features), and
tiny reproducible baselines for (i) waveform-family classification and (ii) f0
regression on single tones. The corpus targets tasks such as earcon
classification, timbre analyses, and onset detection, with clearly stated
licensing and limitations. Audio is dedicated to the public domain via CC0-1.0;
code is under MIT. Data DOI: https://doi.org/10.5281/zenodo.17172015. Code:
https://github.com/mandip42/earcons-mini-500.