Doe Wat Ik Zeg: Een Gesproken Promptdataset voor Instructievolging
Do What I Say: A Spoken Prompt Dataset for Instruction-Following
March 10, 2026
Auteurs: Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues
cs.AI
Samenvatting
Spraak Large Language Models (SLLMs) hebben zich snel uitgebreid en ondersteunen een breed scala aan taken. Deze modellen worden doorgaans geëvalueerd met behulp van tekstprompts, wat mogelijk niet overeenkomt met realistische scenario's waarin gebruikers via spraak interacteren. Om dit hiaat te adresseren, introduceren we DoWhatISay (DOWIS), een meertalige dataset van door mensen ingesproken en geschreven prompts, ontworpen om te worden gekoppeld aan elke bestaande benchmark voor een realistische evaluatie van SLLMs onder gesproken instructie-omstandigheden. De dataset beslaat 9 taken en 11 talen, en biedt per taak-taalcombinatie 10 promptvarianten, verdeeld over vijf stijlen. Met behulp van DOWIS benchmarken we state-of-the-art SLLMs en analyseren we de wisselwerking tussen promptmodaliteit, stijl, taal en taaktype. Resultaten tonen aan dat tekstprompts consequent beter presteren dan gesproken prompts, met name in settings met weinig bronnen (low-resource) en cross-linguale settings. Alleen voor taken met spraakuitvoer sluiten gesproken prompts de kloof, wat de noodzaak van spraakgebaseerde prompting in SLLM-evaluatie benadrukt.
English
Speech Large Language Models (SLLMs) have rapidly expanded, supporting a wide range of tasks. These models are typically evaluated using text prompts, which may not reflect real-world scenarios where users interact with speech. To address this gap, we introduce DoWhatISay (DOWIS), a multilingual dataset of human-recorded spoken and written prompts designed to pair with any existing benchmark for realistic evaluation of SLLMs under spoken instruction conditions. Spanning 9 tasks and 11 languages, it provides 10 prompt variants per task-language pair, across five styles. Using DOWIS, we benchmark state-of-the-art SLLMs, analyzing the interplay between prompt modality, style, language, and task type. Results show that text prompts consistently outperform spoken prompts, particularly for low-resource and cross-lingual settings. Only for tasks with speech output, spoken prompts do close the gap, highlighting the need for speech-based prompting in SLLM evaluation.