SQuTR: Um Benchmark de Robustez para Recuperação de Texto por Consulta Oral sob Ruído Acústico

Resumo

A recuperação por consulta falada é um modo de interação importante nos sistemas modernos de recuperação de informação. No entanto, os conjuntos de dados de avaliação existentes estão frequentemente limitados a consultas simples sob condições de ruído controladas, tornando-os inadequados para avaliar a robustez dos sistemas de recuperação por consulta falada sob perturbações acústicas complexas. Para colmatar esta limitação, apresentamos o SQuTR, um benchmark de robustez para recuperação por consulta falada que inclui um conjunto de dados de larga escala e um protocolo de avaliação unificado. O SQuTR agrega 37.317 consultas únicas de seis conjuntos de dados de recuperação de texto em inglês e chinês comumente utilizados, abrangendo múltiplos domínios e tipos de consulta diversos. Sintetizamos a fala utilizando perfis vocais de 200 falantes reais e misturamos 17 categorias de ruído ambiental do mundo real sob níveis de SNR controlados, permitindo uma avaliação de robustez reproduzível desde condições silenciosas até altamente ruidosas. Sob o protocolo unificado, realizamos avaliações em larga escala em sistemas de recuperação em cascata e de ponta a ponta representativos. Os resultados experimentais mostram que o desempenho da recuperação diminui à medida que o ruído aumenta, com quedas substancialmente diferentes entre os sistemas. Até mesmo modelos de recuperação de larga escala têm dificuldades sob ruído extremo, indicando que a robustez permanece um estrangulamento crítico. No geral, o SQuTR fornece um ambiente de teste reproduzível para benchmarking e análise de diagnóstico, e facilita futuras investigações sobre robustez na recuperação de texto por consulta falada.

English

Spoken query retrieval is an important interaction mode in modern information retrieval. However, existing evaluation datasets are often limited to simple queries under constrained noise conditions, making them inadequate for assessing the robustness of spoken query retrieval systems under complex acoustic perturbations. To address this limitation, we present SQuTR, a robustness benchmark for spoken query retrieval that includes a large-scale dataset and a unified evaluation protocol. SQuTR aggregates 37,317 unique queries from six commonly used English and Chinese text retrieval datasets, spanning multiple domains and diverse query types. We synthesize speech using voice profiles from 200 real speakers and mix 17 categories of real-world environmental noise under controlled SNR levels, enabling reproducible robustness evaluation from quiet to highly noisy conditions. Under the unified protocol, we conduct large-scale evaluations on representative cascaded and end-to-end retrieval systems. Experimental results show that retrieval performance decreases as noise increases, with substantially different drops across systems. Even large-scale retrieval models struggle under extreme noise, indicating that robustness remains a critical bottleneck. Overall, SQuTR provides a reproducible testbed for benchmarking and diagnostic analysis, and facilitates future research on robustness in spoken query to text retrieval.

SQuTR: Um Benchmark de Robustez para Recuperação de Texto por Consulta Oral sob Ruído Acústico

SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise

Resumo

Support