ChatPaper.aiChatPaper

SQuTR : Un benchmark de robustesse pour la recherche de texte par requête vocale en présence de bruit acoustique

SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise

February 13, 2026
papers.authors: Yuejie Li, Ke Yang, Yueying Hua, Berlin Chen, Jianhao Nie, Yueping He, Caixin Kang
cs.AI

papers.abstract

La recherche par requête vocale est un mode d'interaction important dans les systèmes modernes de recherche d'information. Cependant, les ensembles de données d'évaluation existants se limitent souvent à des requêtes simples dans des conditions de bruit contraintes, ce qui les rend inadéquats pour évaluer la robustesse des systèmes de recherche vocale face à des perturbations acoustiques complexes. Pour remédier à cette limitation, nous présentons SQuTR, un benchmark de robustesse pour la recherche par requête vocale comprenant un jeu de données à grande échelle et un protocole d'évaluation unifié. SQuTR agrège 37 317 requêtes uniques provenant de six jeux de données de recherche textuelle couramment utilisés en anglais et en chinois, couvrant de multiples domaines et divers types de requêtes. Nous synthétisons la parole en utilisant des profils vocaux de 200 locuteurs réels et mélangeons 17 catégories de bruits environnementaux réalistes à des niveaux de RSB contrôlés, permettant une évaluation reproductible de la robustesse depuis des conditions calmes jusqu'à des environnements fortement bruyants. Selon le protocole unifié, nous menons des évaluations à grande échelle sur des systèmes de recherche en cascade et de bout en bout représentatifs. Les résultats expérimentaux montrent que les performances de recherche diminuent avec l'augmentation du bruit, avec des baisses substantiellement différentes selon les systèmes. Même les modèles de recherche à grande échelle peinent dans des conditions de bruit extrême, indiquant que la robustesse reste un goulot d'étranglement critique. Globalement, SQuTR fournit un banc d'essai reproductible pour l'évaluation comparative et l'analyse diagnostique, et facilite les recherches futures sur la robustesse dans la recherche textuelle par requête vocale.
English
Spoken query retrieval is an important interaction mode in modern information retrieval. However, existing evaluation datasets are often limited to simple queries under constrained noise conditions, making them inadequate for assessing the robustness of spoken query retrieval systems under complex acoustic perturbations. To address this limitation, we present SQuTR, a robustness benchmark for spoken query retrieval that includes a large-scale dataset and a unified evaluation protocol. SQuTR aggregates 37,317 unique queries from six commonly used English and Chinese text retrieval datasets, spanning multiple domains and diverse query types. We synthesize speech using voice profiles from 200 real speakers and mix 17 categories of real-world environmental noise under controlled SNR levels, enabling reproducible robustness evaluation from quiet to highly noisy conditions. Under the unified protocol, we conduct large-scale evaluations on representative cascaded and end-to-end retrieval systems. Experimental results show that retrieval performance decreases as noise increases, with substantially different drops across systems. Even large-scale retrieval models struggle under extreme noise, indicating that robustness remains a critical bottleneck. Overall, SQuTR provides a reproducible testbed for benchmarking and diagnostic analysis, and facilitates future research on robustness in spoken query to text retrieval.
PDF1342February 17, 2026