세그먼트 길이의 중요성: 오디오 핑거프린팅 성능에 미치는 세그먼트 길이 영향 연구
Segment Length Matters: A Study of Segment Lengths on Audio Fingerprinting Performance
January 25, 2026
저자: Ziling Gong, Yunyan Ouyang, Iram Kamdar, Melody Ma, Hongjie Chen, Franck Dernoncourt, Ryan A. Rossi, Nesreen K. Ahmed
cs.AI
초록
오디오 핑거프린팅은 음향 신호를 식별 가능한 표현으로 변환하여 이후 식별 및 검색 시스템에 활용할 수 있게 합니다. 차별적인 표현을 얻기 위해 입력 오디오는 일반적으로 더 짧은 시간 간격으로 분할되어 지역적 음향 특징을 추출하고 분석할 수 있도록 합니다. 현신 신경망 기반 접근법은 일반적으로 짧고 고정된 길이의 오디오 세그먼트를 사용하지만, 세그먼트 길이 선택은 흔히 경험적으로 이루어지며 깊이 검토되지 않는 경우가 많습니다. 본 논문에서는 세그먼트 길이가 오디오 핑거프린팅 성능에 미치는 영향을 연구합니다. 기존 신경망 핑거프린팅 아키텍처를 확장하여 다양한 세그먼트 길이를 적용할 수 있도록 하고, 다른 세그먼트 길이와 질의 길이에 따른 검색 정확도를 평가합니다. 실험 결과, 짧은 세그먼트 길이(0.5초)가 일반적으로 더 나은 성능을 달성함을 보여줍니다. 또한 최적의 세그먼트 길이 추천에 대한 LLM의 능력을 평가한 결과, 연구된 세 가지 LLM 중 GPT-5-mini가 다섯 가지 고려 사항에 걸쳐 가장 일관된 추천을 제공함을 확인했습니다. 본 연구의 결과는 대규모 신경망 오디오 검색 시스템에서 세그먼트 길이 선택에 대한 실용적인 지침을 제시합니다.
English
Audio fingerprinting provides an identifiable representation of acoustic signals, which can be later used for identification and retrieval systems. To obtain a discriminative representation, the input audio is usually segmented into shorter time intervals, allowing local acoustic features to be extracted and analyzed. Modern neural approaches typically operate on short, fixed-duration audio segments, yet the choice of segment duration is often made heuristically and rarely examined in depth. In this paper, we study how segment length affects audio fingerprinting performance. We extend an existing neural fingerprinting architecture to adopt various segment lengths and evaluate retrieval accuracy across different segment lengths and query durations. Our results show that short segment lengths (0.5-second) generally achieve better performance. Moreover, we evaluate LLM capacity in recommending the best segment length, which shows that GPT-5-mini consistently gives the best suggestions across five considerations among three studied LLMs. Our findings provide practical guidance for selecting segment duration in large-scale neural audio retrieval systems.