ChatPaper.aiChatPaper

BeepBank-500: Un Mini-Corpus Sintético de Earcons para la Investigación de Sonidos en Interfaces de Usuario y Psicoacústica

BeepBank-500: A Synthetic Earcon Mini-Corpus for UI Sound Research and Psychoacoustics Research

September 21, 2025
Autores: Mandip Goswami
cs.AI

Resumen

Presentamos BeepBank-500, un conjunto de datos compacto y completamente sintético de earcons/alertas (300-500 clips) diseñado para experimentación rápida y libre de derechos en interacción humano-computadora y aprendizaje automático de audio. Cada clip se genera a partir de una receta paramétrica que controla la familia de formas de onda (seno, cuadrada, triangular, FM), la frecuencia fundamental, la duración, la envolvente de amplitud, la modulación de amplitud (AM) y una reverberación ligera al estilo de Schroeder. Utilizamos tres configuraciones de reverberación: seca, y dos habitaciones sintéticas denominadas 'rir small' ('pequeña') y 'rir medium' ('mediana') a lo largo del artículo y en los metadatos. Publicamos audio mono a 48 kHz en formato WAV (16 bits), una tabla de metadatos enriquecida (características de señal/espectrales) y pequeñas líneas base reproducibles para (i) clasificación de familias de formas de onda y (ii) regresión de f0 en tonos individuales. El corpus está orientado a tareas como clasificación de earcons, análisis de timbre y detección de inicio, con licencias y limitaciones claramente establecidas. El audio se dedica al dominio público mediante CC0-1.0; el código está bajo licencia MIT. DOI de los datos: https://doi.org/10.5281/zenodo.17172015. Código: https://github.com/mandip42/earcons-mini-500.
English
We introduce BeepBank-500, a compact, fully synthetic earcon/alert dataset (300-500 clips) designed for rapid, rights-clean experimentation in human-computer interaction and audio machine learning. Each clip is generated from a parametric recipe controlling waveform family (sine, square, triangle, FM), fundamental frequency, duration, amplitude envelope, amplitude modulation (AM), and lightweight Schroeder-style reverberation. We use three reverberation settings: dry, and two synthetic rooms denoted 'rir small' ('small') and 'rir medium' ('medium') throughout the paper and in the metadata. We release mono 48 kHz WAV audio (16-bit), a rich metadata table (signal/spectral features), and tiny reproducible baselines for (i) waveform-family classification and (ii) f0 regression on single tones. The corpus targets tasks such as earcon classification, timbre analyses, and onset detection, with clearly stated licensing and limitations. Audio is dedicated to the public domain via CC0-1.0; code is under MIT. Data DOI: https://doi.org/10.5281/zenodo.17172015. Code: https://github.com/mandip42/earcons-mini-500.
PDF12September 23, 2025