SQuTR: Un Benchmark di Robustezza per il Recupero di Testi da Query Vocali in Condizioni di Rumore Acustico
SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise
February 13, 2026
Autori: Yuejie Li, Ke Yang, Yueying Hua, Berlin Chen, Jianhao Nie, Yueping He, Caixin Kang
cs.AI
Abstract
Il recupero di query vocali è una modalità di interazione importante nell'ambito della moderna information retrieval. Tuttavia, i dataset di valutazione esistenti sono spesso limitati a query semplici in condizioni di rumore controllate, rendendoli inadeguati per valutare la robustezza dei sistemi di recupero di query vocali sotto perturbazioni acustiche complesse. Per affrontare questa limitazione, presentiamo SQuTR, un benchmark di robustezza per il recupero di query vocali che include un dataset su larga scala e un protocollo di valutazione unificato. SQuTR aggrega 37.317 query uniche provenienti da sei dataset di recupero testuale comunemente utilizzati in inglese e cinese, coprendo molteplici domini e diversi tipi di query. Sintetizziamo il parlato utilizzando profili vocali di 200 parlanti reali e mescoliamo 17 categorie di rumore ambientale reale sotto livelli SNR controllati, consentendo una valutazione riproducibile della robustezza da condizioni silenziose a condizioni altamente rumorose. Sotto il protocollo unificato, conduciamo valutazioni su larga scala su sistemi di recupero rappresentativi, sia a cascata che end-to-end. I risultati sperimentali mostrano che le prestazioni di recupero diminuiscono all'aumentare del rumore, con cali sostanzialmente diversi tra i sistemi. Anche i modelli di recupero su larga scala faticano in condizioni di rumore estremo, indicando che la robustezza rimane un collo di bottiglia critico. Nel complesso, SQuTR fornisce un ambiente di test riproducibile per benchmarking e analisi diagnostica, e facilita la ricerca futura sulla robustezza nel recupero testuale da query vocali.
English
Spoken query retrieval is an important interaction mode in modern information retrieval. However, existing evaluation datasets are often limited to simple queries under constrained noise conditions, making them inadequate for assessing the robustness of spoken query retrieval systems under complex acoustic perturbations. To address this limitation, we present SQuTR, a robustness benchmark for spoken query retrieval that includes a large-scale dataset and a unified evaluation protocol. SQuTR aggregates 37,317 unique queries from six commonly used English and Chinese text retrieval datasets, spanning multiple domains and diverse query types. We synthesize speech using voice profiles from 200 real speakers and mix 17 categories of real-world environmental noise under controlled SNR levels, enabling reproducible robustness evaluation from quiet to highly noisy conditions. Under the unified protocol, we conduct large-scale evaluations on representative cascaded and end-to-end retrieval systems. Experimental results show that retrieval performance decreases as noise increases, with substantially different drops across systems. Even large-scale retrieval models struggle under extreme noise, indicating that robustness remains a critical bottleneck. Overall, SQuTR provides a reproducible testbed for benchmarking and diagnostic analysis, and facilitates future research on robustness in spoken query to text retrieval.