Haz lo que digo: un conjunto de datos de instrucciones orales para el seguimiento de órdenes
Do What I Say: A Spoken Prompt Dataset for Instruction-Following
March 10, 2026
Autores: Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues
cs.AI
Resumen
Los Modelos de Lenguaje Grandes de Voz (SLLMs) se han expandido rápidamente, admitiendo una amplia gama de tareas. Estos modelos suelen evaluarse mediante indicaciones de texto, lo que puede no reflejar escenarios del mundo real donde los usuarios interactúan mediante voz. Para abordar esta brecha, presentamos DoWhatISay (DOWIS), un conjunto de datos multilingüe de indicaciones habladas y escritas grabadas por humanos, diseñado para emparejarse con cualquier benchmark existente y permitir una evaluación realista de los SLLMs bajo condiciones de instrucción hablada. Abarcando 9 tareas y 11 idiomas, proporciona 10 variantes de indicación por par tarea-idioma, a través de cinco estilos. Utilizando DOWIS, evaluamos SLLMs de última generación, analizando la interacción entre la modalidad de la indicación, el estilo, el idioma y el tipo de tarea. Los resultados muestran que las indicaciones de texto superan consistentemente a las indicaciones habladas, particularmente para entornos de bajos recursos y cross-lingües. Solo para tareas con salida de voz, las indicaciones habladas logran reducir la brecha, destacando la necesidad de utilizar indicaciones basadas en voz en la evaluación de los SLLMs.
English
Speech Large Language Models (SLLMs) have rapidly expanded, supporting a wide range of tasks. These models are typically evaluated using text prompts, which may not reflect real-world scenarios where users interact with speech. To address this gap, we introduce DoWhatISay (DOWIS), a multilingual dataset of human-recorded spoken and written prompts designed to pair with any existing benchmark for realistic evaluation of SLLMs under spoken instruction conditions. Spanning 9 tasks and 11 languages, it provides 10 prompt variants per task-language pair, across five styles. Using DOWIS, we benchmark state-of-the-art SLLMs, analyzing the interplay between prompt modality, style, language, and task type. Results show that text prompts consistently outperform spoken prompts, particularly for low-resource and cross-lingual settings. Only for tasks with speech output, spoken prompts do close the gap, highlighting the need for speech-based prompting in SLLM evaluation.