ChatPaper.aiChatPaper

SQuTR: 음향 잡음 환경에서 음성 질의 기반 텍스트 검색의 견고성 벤치마크

SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise

February 13, 2026
저자: Yuejie Li, Ke Yang, Yueying Hua, Berlin Chen, Jianhao Nie, Yueping He, Caixin Kang
cs.AI

초록

음성 질의 검색은 현대 정보 검색 시스템의 중요한 상호작용 방식입니다. 그러나 기존 평가 데이터셋은 제한된 노이즈 조건에서의 단순한 질의로 한정되는 경우가 많아, 복잡한 음향적 변형 하에서 음성 질의 검색 시스템의 강건성을 평가하기에는 부적합합니다. 이러한 한계를 해결하기 위해 본 논문은 대규모 데이터셋과 통합 평가 프로토콜을 포함하는 음성 질의 검색 강건성 벤치마크인 SQuTR을 제안합니다. SQuTR은 널리 사용되는 6개의 영어 및 중국어 텍스트 검색 데이터셋에서 37,317개의 고유 질의를 통합하여 다양한 도메인과 질의 유형을 포괄합니다. 실제 화자 200명의 음성 프로필을 활용하여 음성을 합성하고, 통제된 SNR 수준에서 17개 범주의 실제 환경 노이즈를 혼합하여 조용한 환경부터 매우 시끄러운 환경까지 재현 가능한 강건성 평가를 가능하게 합니다. 통합 프로토콜을 통해 대표적인 계단식 및 종단간 검색 시스템에 대한 대규모 평가를 수행한 결과, 노이즈가 증가함에 따라 검색 성능이 저하되며 시스템별로 상이한 성능 하락 폭을 확인했습니다. 대규모 검색 모델조차 극한 노이즈 환경에서는 어려움을 겪는 것으로 나타나, 강건성은 여전히 중요한 병목 현상임을 시사합니다. 전반적으로 SQuTR은 벤치마킹 및 진단 분석을 위한 재현 가능한 테스트베드를 제공하며, 음성 질의-텍스트 검색 분야의 강건성 향후 연구를 촉진할 것으로 기대됩니다.
English
Spoken query retrieval is an important interaction mode in modern information retrieval. However, existing evaluation datasets are often limited to simple queries under constrained noise conditions, making them inadequate for assessing the robustness of spoken query retrieval systems under complex acoustic perturbations. To address this limitation, we present SQuTR, a robustness benchmark for spoken query retrieval that includes a large-scale dataset and a unified evaluation protocol. SQuTR aggregates 37,317 unique queries from six commonly used English and Chinese text retrieval datasets, spanning multiple domains and diverse query types. We synthesize speech using voice profiles from 200 real speakers and mix 17 categories of real-world environmental noise under controlled SNR levels, enabling reproducible robustness evaluation from quiet to highly noisy conditions. Under the unified protocol, we conduct large-scale evaluations on representative cascaded and end-to-end retrieval systems. Experimental results show that retrieval performance decreases as noise increases, with substantially different drops across systems. Even large-scale retrieval models struggle under extreme noise, indicating that robustness remains a critical bottleneck. Overall, SQuTR provides a reproducible testbed for benchmarking and diagnostic analysis, and facilitates future research on robustness in spoken query to text retrieval.
PDF1342February 17, 2026