ChatPaper.aiChatPaper

SQuTR: Тестовый набор для оценки устойчивости извлечения текста по голосовому запросу в условиях акустических помех

SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise

February 13, 2026
Авторы: Yuejie Li, Ke Yang, Yueying Hua, Berlin Chen, Jianhao Nie, Yueping He, Caixin Kang
cs.AI

Аннотация

Поиск по голосовым запросам является важным режимом взаимодействия в современных информационно-поисковых системах. Однако существующие оценочные наборы данных часто ограничиваются простыми запросами в контролируемых шумовых условиях, что делает их непригодными для оценки устойчивости систем поиска по устным запросам к сложным акустическим возмущениям. Для решения этой проблемы мы представляем SQuTR — эталонный тест устойчивости для поиска по голосовым запросам, включающий масштабный набор данных и унифицированный протокол оценки. SQuTR объединяет 37 317 уникальных запросов из шести широко используемых англо- и китайскоязычных наборов данных текстового поиска, охватывающих множество доменов и разнообразные типы запросов. Мы синтезируем речь с использованием голосовых профилей 200 реальных дикторов и добавляем 17 категорий реальных фоновых шумов при контролируемых уровнях SNR, что позволяет проводить воспроизводимую оценку устойчивости от тихих до крайне шумных условий. В рамках единого протокола мы проводим масштабную оценку репрезентативных каскадных и end-to-end поисковых систем. Результаты экспериментов показывают, что производительность поиска снижается с ростом уровня шума, причем степень деградации существенно различается across системам. Даже крупномасштабные поисковые модели испытывают трудности в условиях экстремального шума, что указывает на сохраняющуюся критическую проблему устойчивости. В целом, SQuTR предоставляет воспроизводимую среду для сравнительного анализа и диагностики, а также способствует будущим исследованиям устойчивости систем преобразования устных запросов в текстовый поиск.
English
Spoken query retrieval is an important interaction mode in modern information retrieval. However, existing evaluation datasets are often limited to simple queries under constrained noise conditions, making them inadequate for assessing the robustness of spoken query retrieval systems under complex acoustic perturbations. To address this limitation, we present SQuTR, a robustness benchmark for spoken query retrieval that includes a large-scale dataset and a unified evaluation protocol. SQuTR aggregates 37,317 unique queries from six commonly used English and Chinese text retrieval datasets, spanning multiple domains and diverse query types. We synthesize speech using voice profiles from 200 real speakers and mix 17 categories of real-world environmental noise under controlled SNR levels, enabling reproducible robustness evaluation from quiet to highly noisy conditions. Under the unified protocol, we conduct large-scale evaluations on representative cascaded and end-to-end retrieval systems. Experimental results show that retrieval performance decreases as noise increases, with substantially different drops across systems. Even large-scale retrieval models struggle under extreme noise, indicating that robustness remains a critical bottleneck. Overall, SQuTR provides a reproducible testbed for benchmarking and diagnostic analysis, and facilitates future research on robustness in spoken query to text retrieval.
PDF1342February 17, 2026