ChatPaper.aiChatPaper

BeepBank-500: Um Mini-Corpus Sintético de Earcons para Pesquisa em Sons de Interface de Usuário e Psicoacústica

BeepBank-500: A Synthetic Earcon Mini-Corpus for UI Sound Research and Psychoacoustics Research

September 21, 2025
Autores: Mandip Goswami
cs.AI

Resumo

Apresentamos o BeepBank-500, um conjunto de dados compacto e totalmente sintético de earcons/alertas (300-500 clipes) projetado para experimentação rápida e livre de direitos em interação humano-computador e aprendizado de máquina em áudio. Cada clipe é gerado a partir de uma receita paramétrica que controla a família de formas de onda (seno, quadrada, triangular, FM), frequência fundamental, duração, envelope de amplitude, modulação de amplitude (AM) e reverberação leve no estilo Schroeder. Utilizamos três configurações de reverberação: seco, e duas salas sintéticas denominadas 'rir small' ('pequeno') e 'rir medium' ('médio') ao longo do artigo e nos metadados. Disponibilizamos áudio mono em WAV de 48 kHz (16 bits), uma tabela de metadados rica (características de sinal/espectrais) e pequenas linhas de base reproduzíveis para (i) classificação de famílias de formas de onda e (ii) regressão de f0 em tons únicos. O corpus visa tarefas como classificação de earcons, análises de timbre e detecção de início, com licenciamento e limitações claramente declarados. O áudio é dedicado ao domínio público via CC0-1.0; o código está sob licença MIT. DOI dos dados: https://doi.org/10.5281/zenodo.17172015. Código: https://github.com/mandip42/earcons-mini-500.
English
We introduce BeepBank-500, a compact, fully synthetic earcon/alert dataset (300-500 clips) designed for rapid, rights-clean experimentation in human-computer interaction and audio machine learning. Each clip is generated from a parametric recipe controlling waveform family (sine, square, triangle, FM), fundamental frequency, duration, amplitude envelope, amplitude modulation (AM), and lightweight Schroeder-style reverberation. We use three reverberation settings: dry, and two synthetic rooms denoted 'rir small' ('small') and 'rir medium' ('medium') throughout the paper and in the metadata. We release mono 48 kHz WAV audio (16-bit), a rich metadata table (signal/spectral features), and tiny reproducible baselines for (i) waveform-family classification and (ii) f0 regression on single tones. The corpus targets tasks such as earcon classification, timbre analyses, and onset detection, with clearly stated licensing and limitations. Audio is dedicated to the public domain via CC0-1.0; code is under MIT. Data DOI: https://doi.org/10.5281/zenodo.17172015. Code: https://github.com/mandip42/earcons-mini-500.
PDF12September 23, 2025