내 말을 따라 해: 지시 따르기를 위한 음성 프롬프트 데이터셋
Do What I Say: A Spoken Prompt Dataset for Instruction-Following
March 10, 2026
저자: Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues
cs.AI
초록
음성 대규모 언어 모델(SLLM)은 빠르게 발전하며 다양한 작업을 지원하고 있습니다. 이러한 모델들은 일반적으로 텍스트 프롬프트를 사용해 평가되지만, 이는 사용자가 음성으로 상호작용하는 실제 상황을 반영하지 못할 수 있습니다. 이러한 격차를 해결하기 위해 우리는 기존 벤치마크와 결합하여 음성 지시 조건에서 SLLM의 현실적인 평가를 가능하게 하는, 인간이 기록한 다국어 음성 및 텍스트 프롬프트 데이터셋인 DoWhatISay(DOWIS)를 소개합니다. 9개 작업과 11개 언어를 아우르는 이 데이터셋은 작업-언어 쌍마다 5가지 스타일로 10개의 프롬프트 변형을 제공합니다. DOWIS를 사용하여 우리는 최첨단 SLLM의 성능을 벤치마킹하고 프롬프트 양식, 스타일, 언어, 작업 유형 간의 상호작용을 분석합니다. 결과는 특히 저자원 및 교차 언어 설정에서 텍스트 프롬프트가 음성 프롬프트보다 일관되게 우수함을 보여줍니다. 음성 출력이 필요한 작업에 대해서만 음성 프롬프트의 격차가 줄어들며, 이는 SLLM 평가에 음성 기반 프롬프팅의 필요성을 강조합니다.
English
Speech Large Language Models (SLLMs) have rapidly expanded, supporting a wide range of tasks. These models are typically evaluated using text prompts, which may not reflect real-world scenarios where users interact with speech. To address this gap, we introduce DoWhatISay (DOWIS), a multilingual dataset of human-recorded spoken and written prompts designed to pair with any existing benchmark for realistic evaluation of SLLMs under spoken instruction conditions. Spanning 9 tasks and 11 languages, it provides 10 prompt variants per task-language pair, across five styles. Using DOWIS, we benchmark state-of-the-art SLLMs, analyzing the interplay between prompt modality, style, language, and task type. Results show that text prompts consistently outperform spoken prompts, particularly for low-resource and cross-lingual settings. Only for tasks with speech output, spoken prompts do close the gap, highlighting the need for speech-based prompting in SLLM evaluation.