Tu, was ich sage: Ein gesprochenes Prompt-Dataset für Befolgung von Anweisungen
Do What I Say: A Spoken Prompt Dataset for Instruction-Following
March 10, 2026
Autoren: Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues
cs.AI
Zusammenfassung
Sprachbasierte Large Language Models (SLLMs) haben sich rasant weiterentwickelt und unterstützen eine Vielzahl von Aufgaben. Diese Modelle werden typischerweise mit Textprompts evaluiert, was möglicherweise keine realistischen Szenarien widerspiegelt, in denen Nutzer mit Sprache interagieren. Um diese Lücke zu schließen, stellen wir DoWhatISay (DOWIS) vor, einen multilingualen Datensatz mit von Menschen aufgezeichneten gesprochenen und geschriebenen Prompts, der dazu konzipiert ist, sich mit beliebigen bestehenden Benchmarks koppeln zu lassen, um eine realistische Evaluation von SLLMs unter Bedingungen gesprochener Instruktionen zu ermöglichen. Der Datensatz umfasst 9 Aufgaben und 11 Sprachen und bietet 10 Prompt-Varianten pro Aufgaben-Sprachen-Paar in fünf verschiedenen Stilen. Unter Verwendung von DOWIS benchmarken wir state-of-the-art SLLMs und analysieren das Zusammenspiel zwischen Prompt-Modalität, Stil, Sprache und Aufgabentyp. Die Ergebnisse zeigen, dass Textprompts durchweg bessere Leistungen erzielen als gesprochene Prompts, insbesondere in ressourcenarmen und cross-lingualen Settings. Nur bei Aufgaben mit Sprachausgabe schließen gesprochene Prompts die Lücke nahezu, was den Bedarf an sprachbasierter Prompting für die SLLM-Evaluation unterstreicht.
English
Speech Large Language Models (SLLMs) have rapidly expanded, supporting a wide range of tasks. These models are typically evaluated using text prompts, which may not reflect real-world scenarios where users interact with speech. To address this gap, we introduce DoWhatISay (DOWIS), a multilingual dataset of human-recorded spoken and written prompts designed to pair with any existing benchmark for realistic evaluation of SLLMs under spoken instruction conditions. Spanning 9 tasks and 11 languages, it provides 10 prompt variants per task-language pair, across five styles. Using DOWIS, we benchmark state-of-the-art SLLMs, analyzing the interplay between prompt modality, style, language, and task type. Results show that text prompts consistently outperform spoken prompts, particularly for low-resource and cross-lingual settings. Only for tasks with speech output, spoken prompts do close the gap, highlighting the need for speech-based prompting in SLLM evaluation.