Speechless: Treinamento de Instrução de Fala Sem Fala para Idiomas de Baixos Recursos
Speechless: Speech Instruction Training Without Speech for Low Resource Languages
May 23, 2025
Autores: Alan Dao, Dinh Bach Vu, Huy Hoang Ha, Tuan Le Duc Anh, Shreyas Gopal, Yue Heng Yeo, Warren Keng Hoong Low, Eng Siong Chng, Jia Qi Yip
cs.AI
Resumo
O rápido crescimento dos assistentes de voz alimentados por modelos de linguagem de grande escala (LLM) destacou a necessidade de dados de instrução de fala para treinar esses sistemas. Apesar da abundância de dados de reconhecimento de fala, há uma escassez notável de dados de instrução de fala, que são essenciais para ajustar modelos a fim de compreender e executar comandos falados. A geração de fala sintética de alta qualidade requer um bom modelo de conversão de texto em fala (TTS), que pode não estar disponível para idiomas de baixos recursos. Nossa abordagem inovadora enfrenta esse desafio interrompendo a síntese no nível de representação semântica, eliminando a necessidade de TTS. Isso é alcançado alinhando representações semânticas sintéticas com o codificador Whisper pré-treinado, permitindo que um LLM seja ajustado em instruções de texto enquanto mantém a capacidade de compreender instruções faladas durante a inferência. Esse processo de treinamento simplificado é uma abordagem promissora para a construção de assistentes de voz para idiomas de baixos recursos.
English
The rapid growth of voice assistants powered by large language models (LLM)
has highlighted a need for speech instruction data to train these systems.
Despite the abundance of speech recognition data, there is a notable scarcity
of speech instruction data, which is essential for fine-tuning models to
understand and execute spoken commands. Generating high-quality synthetic
speech requires a good text-to-speech (TTS) model, which may not be available
to low resource languages. Our novel approach addresses this challenge by
halting synthesis at the semantic representation level, bypassing the need for
TTS. We achieve this by aligning synthetic semantic representations with the
pre-trained Whisper encoder, enabling an LLM to be fine-tuned on text
instructions while maintaining the ability to understand spoken instructions
during inference. This simplified training process is a promising approach to
building voice assistant for low-resource languages.