SQuTR: Un Punto de Referencia de Robustez para la Recuperación de Texto mediante Consulta Oral en Condiciones de Ruido Acústico
SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise
February 13, 2026
Autores: Yuejie Li, Ke Yang, Yueying Hua, Berlin Chen, Jianhao Nie, Yueping He, Caixin Kang
cs.AI
Resumen
La recuperación de consultas habladas es un modo de interacción importante en la recuperación de información moderna. Sin embargo, los conjuntos de datos de evaluación existentes a menudo se limitan a consultas simples bajo condiciones de ruido restringidas, lo que los hace inadecuados para evaluar la robustez de los sistemas de recuperación de consultas habladas bajo perturbaciones acústicas complejas. Para abordar esta limitación, presentamos SQuTR, un benchmark de robustez para la recuperación de consultas habladas que incluye un conjunto de datos a gran escala y un protocolo de evaluación unificado. SQuTR agrega 37.317 consultas únicas de seis conjuntos de datos de recuperación de texto en inglés y chino de uso común, abarcando múltiples dominios y diversos tipos de consultas. Sintetizamos voz utilizando perfiles vocales de 200 hablantes reales y mezclamos 17 categorías de ruido ambiental del mundo real bajo niveles controlados de SNR, permitiendo una evaluación de robustez reproducible desde condiciones silenciosas hasta altamente ruidosas. Bajo el protocolo unificado, realizamos evaluaciones a gran escala en sistemas de recuperación en cascada y de extremo a extremo representativos. Los resultados experimentales muestran que el rendimiento de la recuperación disminuye a medida que aumenta el ruido, con caídas sustancialmente diferentes entre los sistemas. Incluso los modelos de recuperación a gran escala tienen dificultades bajo ruido extremo, lo que indica que la robustez sigue siendo un cuello de botella crítico. En general, SQuTR proporciona un banco de pruebas reproducible para la evaluación comparativa y el análisis de diagnóstico, y facilita la investigación futura sobre la robustez en la recuperación de texto a partir de consultas habladas.
English
Spoken query retrieval is an important interaction mode in modern information retrieval. However, existing evaluation datasets are often limited to simple queries under constrained noise conditions, making them inadequate for assessing the robustness of spoken query retrieval systems under complex acoustic perturbations. To address this limitation, we present SQuTR, a robustness benchmark for spoken query retrieval that includes a large-scale dataset and a unified evaluation protocol. SQuTR aggregates 37,317 unique queries from six commonly used English and Chinese text retrieval datasets, spanning multiple domains and diverse query types. We synthesize speech using voice profiles from 200 real speakers and mix 17 categories of real-world environmental noise under controlled SNR levels, enabling reproducible robustness evaluation from quiet to highly noisy conditions. Under the unified protocol, we conduct large-scale evaluations on representative cascaded and end-to-end retrieval systems. Experimental results show that retrieval performance decreases as noise increases, with substantially different drops across systems. Even large-scale retrieval models struggle under extreme noise, indicating that robustness remains a critical bottleneck. Overall, SQuTR provides a reproducible testbed for benchmarking and diagnostic analysis, and facilitates future research on robustness in spoken query to text retrieval.