BeepBank-500: UI 사운드 연구 및 심리음향학 연구를 위한 합성 이어콘 소규모 코퍼스
BeepBank-500: A Synthetic Earcon Mini-Corpus for UI Sound Research and Psychoacoustics Research
September 21, 2025
저자: Mandip Goswami
cs.AI
초록
우리는 인간-컴퓨터 상호작용 및 오디오 머신러닝 분야에서 빠르고 권리 문제가 없는 실험을 위해 설계된 소형의 완전 합성 이어콘/알림 데이터셋인 BeepBank-500(300-500개의 클립)을 소개합니다. 각 클립은 파형 패밀리(사인, 사각, 삼각, FM), 기본 주파수, 지속 시간, 진폭 엔벨로프, 진폭 변조(AM), 그리고 경량의 슈뢰더 스타일 리버브레이션을 제어하는 파라메트릭 레시피로 생성됩니다. 우리는 세 가지 리버브레이션 설정을 사용합니다: 건조(dry), 그리고 'rir small'('small')과 'rir medium'('medium')으로 표기된 두 개의 합성 방입니다. 이 설정은 논문 전체와 메타데이터에서 일관되게 사용됩니다. 우리는 모노 48 kHz WAV 오디오(16비트), 풍부한 메타데이터 테이블(신호/스펙트럼 특징), 그리고 (i) 파형 패밀리 분류와 (ii) 단일 톤에 대한 f0 회귀를 위한 작은 재현 가능한 베이스라인을 공개합니다. 이 코퍼스는 이어콘 분류, 음색 분석, 시작점 탐지와 같은 작업을 목표로 하며, 명확히 명시된 라이선스와 제한 사항을 가지고 있습니다. 오디오는 CC0-1.0을 통해 퍼블릭 도메인에 기부되었으며, 코드는 MIT 라이선스 하에 있습니다. 데이터 DOI: https://doi.org/10.5281/zenodo.17172015. 코드: https://github.com/mandip42/earcons-mini-500.
English
We introduce BeepBank-500, a compact, fully synthetic earcon/alert dataset
(300-500 clips) designed for rapid, rights-clean experimentation in
human-computer interaction and audio machine learning. Each clip is generated
from a parametric recipe controlling waveform family (sine, square, triangle,
FM), fundamental frequency, duration, amplitude envelope, amplitude modulation
(AM), and lightweight Schroeder-style reverberation. We use three reverberation
settings: dry, and two synthetic rooms denoted 'rir small' ('small') and 'rir
medium' ('medium') throughout the paper and in the metadata. We release mono 48
kHz WAV audio (16-bit), a rich metadata table (signal/spectral features), and
tiny reproducible baselines for (i) waveform-family classification and (ii) f0
regression on single tones. The corpus targets tasks such as earcon
classification, timbre analyses, and onset detection, with clearly stated
licensing and limitations. Audio is dedicated to the public domain via CC0-1.0;
code is under MIT. Data DOI: https://doi.org/10.5281/zenodo.17172015. Code:
https://github.com/mandip42/earcons-mini-500.