ChatPaper.aiChatPaper

Faça o Que Eu Digo: Um Conjunto de Dados de Comandos Orais para Seguimento de Instruções

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

March 10, 2026
Autores: Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues
cs.AI

Resumo

Os Modelos de Linguagem de Grande Porte para Fala (SLLMs) expandiram-se rapidamente, suportando uma ampla gama de tarefas. Estes modelos são normalmente avaliados usando instruções de texto, o que pode não refletir cenários do mundo real, onde os utilizadores interagem através de fala. Para colmatar esta lacuna, introduzimos o DoWhatISay (DOWIS), um conjunto de dados multilingue de instruções faladas (gravadas por humanos) e escritas, concebido para ser emparelhado com qualquer *benchmark* existente para uma avaliação realista de SLLMs sob condições de instrução falada. Abrangendo 9 tarefas e 11 idiomas, fornece 10 variantes de instrução por par tarefa-idioma, distribuídas por cinco estilos. Utilizando o DOWIS, avaliamos SLLMs de última geração, analisando a interação entre a modalidade da instrução, o estilo, o idioma e o tipo de tarefa. Os resultados mostram que as instruções de texto superam consistentemente as instruções faladas, particularmente para contextos de baixos recursos e cenários transversais a vários idiomas. Apenas para tarefas com saída de fala é que as instruções faladas reduzem significativamente a diferença de desempenho, salientando a necessidade do uso de instruções baseadas em fala na avaliação de SLLMs.
English
Speech Large Language Models (SLLMs) have rapidly expanded, supporting a wide range of tasks. These models are typically evaluated using text prompts, which may not reflect real-world scenarios where users interact with speech. To address this gap, we introduce DoWhatISay (DOWIS), a multilingual dataset of human-recorded spoken and written prompts designed to pair with any existing benchmark for realistic evaluation of SLLMs under spoken instruction conditions. Spanning 9 tasks and 11 languages, it provides 10 prompt variants per task-language pair, across five styles. Using DOWIS, we benchmark state-of-the-art SLLMs, analyzing the interplay between prompt modality, style, language, and task type. Results show that text prompts consistently outperform spoken prompts, particularly for low-resource and cross-lingual settings. Only for tasks with speech output, spoken prompts do close the gap, highlighting the need for speech-based prompting in SLLM evaluation.
PDF92March 26, 2026