O Comprimento do Segmento Importa: Um Estudo sobre o Impacto dos Comprimentos de Segmentos no Desempenho da Identificação de Áudio

Resumo

A impressão digital de áudio fornece uma representação identificável de sinais acústicos, que pode posteriormente ser utilizada em sistemas de identificação e recuperação. Para obter uma representação discriminativa, o áudio de entrada é geralmente segmentado em intervalos de tempo mais curtos, permitindo que características acústicas locais sejam extraídas e analisadas. As abordagens neurais modernas normalmente operam em segmentos de áudio curtos e de duração fixa, contudo, a escolha da duração do segmento é frequentemente feita de forma heurística e raramente examinada em profundidade. Neste artigo, estudamos como o comprimento do segmento afeta o desempenho da impressão digital de áudio. Estendemos uma arquitetura neural de impressão digital existente para adotar vários comprimentos de segmento e avaliamos a precisão da recuperação em diferentes comprimentos de segmento e durações de consulta. Nossos resultados mostram que comprimentos de segmento curtos (0,5 segundos) geralmente alcançam melhor desempenho. Além disso, avaliamos a capacidade de LLMs em recomendar o melhor comprimento de segmento, o que demonstra que o GPT-5-mini fornece consistentemente as melhores sugestões entre cinco considerações, entre três LLMs estudados. Nossas descobertas fornecem orientação prática para a seleção da duração do segmento em sistemas neurais de recuperação de áudio em larga escala.

English

Audio fingerprinting provides an identifiable representation of acoustic signals, which can be later used for identification and retrieval systems. To obtain a discriminative representation, the input audio is usually segmented into shorter time intervals, allowing local acoustic features to be extracted and analyzed. Modern neural approaches typically operate on short, fixed-duration audio segments, yet the choice of segment duration is often made heuristically and rarely examined in depth. In this paper, we study how segment length affects audio fingerprinting performance. We extend an existing neural fingerprinting architecture to adopt various segment lengths and evaluate retrieval accuracy across different segment lengths and query durations. Our results show that short segment lengths (0.5-second) generally achieve better performance. Moreover, we evaluate LLM capacity in recommending the best segment length, which shows that GPT-5-mini consistently gives the best suggestions across five considerations among three studied LLMs. Our findings provide practical guidance for selecting segment duration in large-scale neural audio retrieval systems.