ChatPaper.aiChatPaper

SQuTR: 音声雑音下における音声クエリ対テキスト検索のロバスト性ベンチマーク

SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise

February 13, 2026
著者: Yuejie Li, Ke Yang, Yueying Hua, Berlin Chen, Jianhao Nie, Yueping He, Caixin Kang
cs.AI

要旨

音声クエリ検索は、現代の情報検索における重要なインタラクションモードである。しかし、既存の評価データセットは制約のあるノイズ条件下での単純なクエリに限定されることが多く、複雑な音響的摂動下での音声クエリ検索システムのロバスト性評価には不十分である。この課題に対処するため、我々は大規模データセットと統一評価プロトコルを含む音声クエリ検索のロバスト性ベンチマーク「SQuTR」を提案する。SQuTRは、6つの一般的に使用される英語と中国語のテキスト検索データセットから37,317のユニークなクエリを集約し、複数ドメインと多様なクエリタイプを網羅している。200人の実話者による音声プロファイルを使用して音声を合成し、制御されたSNRレベル下で17カテゴリの実世界環境ノイズを混合することで、静かな環境から高ノイズ条件まで再現性のあるロバスト性評価を可能にした。統一プロトコルに基づき、代表的なカスケード型およびエンドツーエンド検索システムに対する大規模評価を実施した。実験結果は、ノイズの増加に伴い検索性能が低下し、システム間で大幅に異なる低下率を示すことを明らかにした。大規模検索モデルでさえ極端なノイズ条件下では苦戦し、ロバスト性が依然として重大なボトルネックであることが示された。総合的に、SQuTRはベンチマーキングと診断分析のための再現性のあるテストベッドを提供し、音声クエリからテキスト検索におけるロバスト性の将来研究を促進する。
English
Spoken query retrieval is an important interaction mode in modern information retrieval. However, existing evaluation datasets are often limited to simple queries under constrained noise conditions, making them inadequate for assessing the robustness of spoken query retrieval systems under complex acoustic perturbations. To address this limitation, we present SQuTR, a robustness benchmark for spoken query retrieval that includes a large-scale dataset and a unified evaluation protocol. SQuTR aggregates 37,317 unique queries from six commonly used English and Chinese text retrieval datasets, spanning multiple domains and diverse query types. We synthesize speech using voice profiles from 200 real speakers and mix 17 categories of real-world environmental noise under controlled SNR levels, enabling reproducible robustness evaluation from quiet to highly noisy conditions. Under the unified protocol, we conduct large-scale evaluations on representative cascaded and end-to-end retrieval systems. Experimental results show that retrieval performance decreases as noise increases, with substantially different drops across systems. Even large-scale retrieval models struggle under extreme noise, indicating that robustness remains a critical bottleneck. Overall, SQuTR provides a reproducible testbed for benchmarking and diagnostic analysis, and facilitates future research on robustness in spoken query to text retrieval.
PDF1342February 17, 2026