BeepBank-500: Um Mini-Corpus Sintético de Earcons para Pesquisa em Sons de Interface de Usuário e Psicoacústica
BeepBank-500: A Synthetic Earcon Mini-Corpus for UI Sound Research and Psychoacoustics Research
September 21, 2025
Autores: Mandip Goswami
cs.AI
Resumo
Apresentamos o BeepBank-500, um conjunto de dados compacto e totalmente sintético de earcons/alertas (300-500 clipes) projetado para experimentação rápida e livre de direitos em interação humano-computador e aprendizado de máquina em áudio. Cada clipe é gerado a partir de uma receita paramétrica que controla a família de formas de onda (seno, quadrada, triangular, FM), frequência fundamental, duração, envelope de amplitude, modulação de amplitude (AM) e reverberação leve no estilo Schroeder. Utilizamos três configurações de reverberação: seco, e duas salas sintéticas denominadas 'rir small' ('pequeno') e 'rir medium' ('médio') ao longo do artigo e nos metadados. Disponibilizamos áudio mono em WAV de 48 kHz (16 bits), uma tabela de metadados rica (características de sinal/espectrais) e pequenas linhas de base reproduzíveis para (i) classificação de famílias de formas de onda e (ii) regressão de f0 em tons únicos. O corpus visa tarefas como classificação de earcons, análises de timbre e detecção de início, com licenciamento e limitações claramente declarados. O áudio é dedicado ao domínio público via CC0-1.0; o código está sob licença MIT. DOI dos dados: https://doi.org/10.5281/zenodo.17172015. Código: https://github.com/mandip42/earcons-mini-500.
English
We introduce BeepBank-500, a compact, fully synthetic earcon/alert dataset
(300-500 clips) designed for rapid, rights-clean experimentation in
human-computer interaction and audio machine learning. Each clip is generated
from a parametric recipe controlling waveform family (sine, square, triangle,
FM), fundamental frequency, duration, amplitude envelope, amplitude modulation
(AM), and lightweight Schroeder-style reverberation. We use three reverberation
settings: dry, and two synthetic rooms denoted 'rir small' ('small') and 'rir
medium' ('medium') throughout the paper and in the metadata. We release mono 48
kHz WAV audio (16-bit), a rich metadata table (signal/spectral features), and
tiny reproducible baselines for (i) waveform-family classification and (ii) f0
regression on single tones. The corpus targets tasks such as earcon
classification, timbre analyses, and onset detection, with clearly stated
licensing and limitations. Audio is dedicated to the public domain via CC0-1.0;
code is under MIT. Data DOI: https://doi.org/10.5281/zenodo.17172015. Code:
https://github.com/mandip42/earcons-mini-500.