Делай, что я говорю: набор данных устных команд для следования инструкциям

Аннотация

Модели речи больших языковых моделей (SLLM) быстро развиваются, поддерживая широкий спектр задач. Эти модели обычно оцениваются с использованием текстовых промптов, что может не отражать реальные сценарии, в которых пользователи взаимодействуют с речью. Для устранения этого пробела мы представляем DoWhatISay (DOWIS) — многоязычный набор данных, содержащий устные и письменные промпты, записанные людьми, который предназначен для совместного использования с любым существующим бенчмарком для реалистичной оценки SLLM в условиях устных инструкций. Охватывая 9 задач и 11 языков, он предоставляет по 10 вариантов промптов для каждой пары "задача-язык" в пяти стилях. Используя DOWIS, мы проводим сравнительный анализ современных SLLM, изучая взаимосвязь между модальностью промпта, стилем, языком и типом задачи. Результаты показывают, что текстовые промпты consistently превосходят устные, особенно в условиях низкоресурсных и кросс-лингвистических сценариев. Только для задач с речевым выводом устные промпты сокращают разрыв, что подчеркивает необходимость использования речевых промптов при оценке SLLM.

English

Speech Large Language Models (SLLMs) have rapidly expanded, supporting a wide range of tasks. These models are typically evaluated using text prompts, which may not reflect real-world scenarios where users interact with speech. To address this gap, we introduce DoWhatISay (DOWIS), a multilingual dataset of human-recorded spoken and written prompts designed to pair with any existing benchmark for realistic evaluation of SLLMs under spoken instruction conditions. Spanning 9 tasks and 11 languages, it provides 10 prompt variants per task-language pair, across five styles. Using DOWIS, we benchmark state-of-the-art SLLMs, analyzing the interplay between prompt modality, style, language, and task type. Results show that text prompts consistently outperform spoken prompts, particularly for low-resource and cross-lingual settings. Only for tasks with speech output, spoken prompts do close the gap, highlighting the need for speech-based prompting in SLLM evaluation.

Делай, что я говорю: набор данных устных команд для следования инструкциям

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Аннотация

Support