La Longitud del Segmento Importa: Estudio de las Longitudes de Segmento en el Rendimiento de la Huella Acústica
Segment Length Matters: A Study of Segment Lengths on Audio Fingerprinting Performance
January 25, 2026
Autores: Ziling Gong, Yunyan Ouyang, Iram Kamdar, Melody Ma, Hongjie Chen, Franck Dernoncourt, Ryan A. Rossi, Nesreen K. Ahmed
cs.AI
Resumen
La huella acústica proporciona una representación identificable de señales acústicas, que posteriormente puede utilizarse en sistemas de identificación y recuperación. Para obtener una representación discriminativa, el audio de entrada suele segmentarse en intervalos de tiempo más cortos, permitiendo extraer y analizar características acústicas locales. Los enfoques neuronales modernos generalmente operan sobre segmentos de audio cortos y de duración fija, aunque la elección de la duración del segmento suele realizarse heurísticamente y rara vez se examina en profundidad. En este artículo, estudiamos cómo afecta la longitud del segmento al rendimiento de la huella acústica. Extendemos una arquitectura neuronal existente de huella acústica para adoptar diversas longitudes de segmento y evaluamos la precisión de recuperación en diferentes longitudes de segmento y duraciones de consulta. Nuestros resultados demuestran que longitudes de segmento cortas (0.5 segundos) generalmente logran un mejor rendimiento. Además, evaluamos la capacidad de los LLM para recomendar la mejor longitud de segmento, observando que GPT-5-mini proporciona consistentemente las mejores sugerencias entre cinco consideraciones analizadas en tres LLM estudiados. Nuestros hallazgos ofrecen orientación práctica para seleccionar la duración del segmento en sistemas neuronales de recuperación de audio a gran escala.
English
Audio fingerprinting provides an identifiable representation of acoustic signals, which can be later used for identification and retrieval systems. To obtain a discriminative representation, the input audio is usually segmented into shorter time intervals, allowing local acoustic features to be extracted and analyzed. Modern neural approaches typically operate on short, fixed-duration audio segments, yet the choice of segment duration is often made heuristically and rarely examined in depth. In this paper, we study how segment length affects audio fingerprinting performance. We extend an existing neural fingerprinting architecture to adopt various segment lengths and evaluate retrieval accuracy across different segment lengths and query durations. Our results show that short segment lengths (0.5-second) generally achieve better performance. Moreover, we evaluate LLM capacity in recommending the best segment length, which shows that GPT-5-mini consistently gives the best suggestions across five considerations among three studied LLMs. Our findings provide practical guidance for selecting segment duration in large-scale neural audio retrieval systems.