Fais ce que je dis : un ensemble de données d'instructions orales pour le suivi de consignes
Do What I Say: A Spoken Prompt Dataset for Instruction-Following
March 10, 2026
Auteurs: Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues
cs.AI
Résumé
Les modèles de langage de grande taille pour la parole (SLLM) se sont rapidement développés, prenant en charge un large éventail de tâches. Ces modèles sont généralement évalués à l'aide d'invites textuelles, ce qui peut ne pas refléter les scénarios réels où les utilisateurs interagissent par la parole. Pour combler cette lacune, nous présentons DoWhatISay (DOWIS), un ensemble de données multilingue d'invites orales et écrites enregistrées par des humains, conçu pour s'associer à n'importe quel benchmark existant afin d'évaluer de manière réaliste les SLLM dans des conditions d'instruction orale. Couvrant 9 tâches et 11 langues, il fournit 10 variantes d'invites par paire tâche-langue, réparties sur cinq styles. En utilisant DOWIS, nous évaluons des SLLM de pointe, en analysant l'interaction entre la modalité de l'invite, le style, la langue et le type de tâche. Les résultats montrent que les invites textuelles surpassent systématiquement les invites orales, particulièrement dans des contextes multilingues et pour les langues peu dotées. Ce n'est que pour les tâches avec sortie vocale que les invites orales réduisent l'écart, soulignant la nécessité d'utiliser des invites basées sur la parole dans l'évaluation des SLLM.
English
Speech Large Language Models (SLLMs) have rapidly expanded, supporting a wide range of tasks. These models are typically evaluated using text prompts, which may not reflect real-world scenarios where users interact with speech. To address this gap, we introduce DoWhatISay (DOWIS), a multilingual dataset of human-recorded spoken and written prompts designed to pair with any existing benchmark for realistic evaluation of SLLMs under spoken instruction conditions. Spanning 9 tasks and 11 languages, it provides 10 prompt variants per task-language pair, across five styles. Using DOWIS, we benchmark state-of-the-art SLLMs, analyzing the interplay between prompt modality, style, language, and task type. Results show that text prompts consistently outperform spoken prompts, particularly for low-resource and cross-lingual settings. Only for tasks with speech output, spoken prompts do close the gap, highlighting the need for speech-based prompting in SLLM evaluation.