Делай, что я говорю: набор данных устных команд для следования инструкциям
Do What I Say: A Spoken Prompt Dataset for Instruction-Following
March 10, 2026
Авторы: Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues
cs.AI
Аннотация
Модели речи больших языковых моделей (SLLM) быстро развиваются, поддерживая широкий спектр задач. Эти модели обычно оцениваются с использованием текстовых промптов, что может не отражать реальные сценарии, в которых пользователи взаимодействуют с речью. Для устранения этого пробела мы представляем DoWhatISay (DOWIS) — многоязычный набор данных, содержащий устные и письменные промпты, записанные людьми, который предназначен для совместного использования с любым существующим бенчмарком для реалистичной оценки SLLM в условиях устных инструкций. Охватывая 9 задач и 11 языков, он предоставляет по 10 вариантов промптов для каждой пары "задача-язык" в пяти стилях. Используя DOWIS, мы проводим сравнительный анализ современных SLLM, изучая взаимосвязь между модальностью промпта, стилем, языком и типом задачи. Результаты показывают, что текстовые промпты consistently превосходят устные, особенно в условиях низкоресурсных и кросс-лингвистических сценариев. Только для задач с речевым выводом устные промпты сокращают разрыв, что подчеркивает необходимость использования речевых промптов при оценке SLLM.
English
Speech Large Language Models (SLLMs) have rapidly expanded, supporting a wide range of tasks. These models are typically evaluated using text prompts, which may not reflect real-world scenarios where users interact with speech. To address this gap, we introduce DoWhatISay (DOWIS), a multilingual dataset of human-recorded spoken and written prompts designed to pair with any existing benchmark for realistic evaluation of SLLMs under spoken instruction conditions. Spanning 9 tasks and 11 languages, it provides 10 prompt variants per task-language pair, across five styles. Using DOWIS, we benchmark state-of-the-art SLLMs, analyzing the interplay between prompt modality, style, language, and task type. Results show that text prompts consistently outperform spoken prompts, particularly for low-resource and cross-lingual settings. Only for tasks with speech output, spoken prompts do close the gap, highlighting the need for speech-based prompting in SLLM evaluation.