SQuTR: Ein Robustheits-Benchmark für die gesprochene Anfrage zur Textretrieval unter akustischem Rauschen
SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise
February 13, 2026
papers.authors: Yuejie Li, Ke Yang, Yueying Hua, Berlin Chen, Jianhao Nie, Yueping He, Caixin Kang
cs.AI
papers.abstract
Die gesprochene Abfragesuche ist ein wichtiger Interaktionsmodus in der modernen Informationsrückgewinnung. Bisherige Evaluierungsdatensätze sind jedoch oft auf einfache Abfragen unter eingeschränkten Rauschbedingungen beschränkt, was sie ungeeignet macht, um die Robustheit von Systemen zur gesprochenen Abfragesuche unter komplexen akustischen Störungen zu bewerten. Um diese Lücke zu schließen, stellen wir SQuTR vor, einen Robustheits-Benchmark für die gesprochene Abfragesuche, der einen groß angelegten Datensatz und ein einheitliches Evaluierungsprotokoll umfasst. SQuTR bündelt 37.317 einzigartige Abfragen aus sechs häufig verwendeten englischen und chinesischen Textretrieval-Datensätzen, die mehrere Domänen und verschiedene Abfragetypen abdecken. Wir synthetisieren Sprache mittels Sprachprofilen von 200 echten Sprechern und mischen 17 Kategorien von realen Umgebungsgeräuschen unter kontrollierten SNR-Werten, was eine reproduzierbare Robustheitsbewertung von ruhigen bis hin zu stark verrauschten Bedingungen ermöglicht. Im Rahmen des einheitlichen Protokolls führen wir umfangreiche Evaluationen an repräsentativen kaskadierten und end-to-end Retrievalsystemen durch. Experimentelle Ergebnisse zeigen, dass die Retrievalleistung mit zunehmendem Rauschen abnimmt, wobei die Einbrüche zwischen den Systemen erheblich variieren. Selbst groß angelegte Retrievalmodelle haben unter extremem Rauschen Schwierigkeiten, was darauf hindeutet, dass Robustheit nach wie vor ein kritischer Engpass ist. Insgesamt bietet SQuTR eine reproduzierbare Testumgebung für Benchmarking und diagnostische Analysen und erleichtert zukünftige Forschung zur Robustheit bei der gesprochenen Abfragesuche in Textretrievalsystemen.
English
Spoken query retrieval is an important interaction mode in modern information retrieval. However, existing evaluation datasets are often limited to simple queries under constrained noise conditions, making them inadequate for assessing the robustness of spoken query retrieval systems under complex acoustic perturbations. To address this limitation, we present SQuTR, a robustness benchmark for spoken query retrieval that includes a large-scale dataset and a unified evaluation protocol. SQuTR aggregates 37,317 unique queries from six commonly used English and Chinese text retrieval datasets, spanning multiple domains and diverse query types. We synthesize speech using voice profiles from 200 real speakers and mix 17 categories of real-world environmental noise under controlled SNR levels, enabling reproducible robustness evaluation from quiet to highly noisy conditions. Under the unified protocol, we conduct large-scale evaluations on representative cascaded and end-to-end retrieval systems. Experimental results show that retrieval performance decreases as noise increases, with substantially different drops across systems. Even large-scale retrieval models struggle under extreme noise, indicating that robustness remains a critical bottleneck. Overall, SQuTR provides a reproducible testbed for benchmarking and diagnostic analysis, and facilitates future research on robustness in spoken query to text retrieval.