ChatPaper.aiChatPaper

Speechless: Addestramento per Istruzioni Vocali Senza Voce per Lingue con Risorse Limit

Speechless: Speech Instruction Training Without Speech for Low Resource Languages

May 23, 2025
Autori: Alan Dao, Dinh Bach Vu, Huy Hoang Ha, Tuan Le Duc Anh, Shreyas Gopal, Yue Heng Yeo, Warren Keng Hoong Low, Eng Siong Chng, Jia Qi Yip
cs.AI

Abstract

La rapida crescita degli assistenti vocali alimentati da modelli linguistici di grandi dimensioni (LLM) ha evidenziato la necessità di dati di istruzione vocale per addestrare questi sistemi. Nonostante l'abbondanza di dati per il riconoscimento vocale, si riscontra una notevole carenza di dati di istruzione vocale, essenziali per affinare i modelli affinché comprendano ed eseguano comandi vocali. La generazione di sintesi vocale di alta qualità richiede un buon modello di sintesi vocale (TTS), che potrebbe non essere disponibile per lingue con risorse limitate. Il nostro approccio innovativo affronta questa sfida interrompendo la sintesi a livello di rappresentazione semantica, evitando così la necessità di un TTS. Raggiungiamo questo obiettivo allineando le rappresentazioni semantiche sintetiche con l'encoder pre-addestrato Whisper, consentendo a un LLM di essere affinato su istruzioni testuali mantenendo la capacità di comprendere istruzioni vocali durante l'inferenza. Questo processo di addestramento semplificato rappresenta un approccio promettente per costruire assistenti vocali per lingue con risorse limitate.
English
The rapid growth of voice assistants powered by large language models (LLM) has highlighted a need for speech instruction data to train these systems. Despite the abundance of speech recognition data, there is a notable scarcity of speech instruction data, which is essential for fine-tuning models to understand and execute spoken commands. Generating high-quality synthetic speech requires a good text-to-speech (TTS) model, which may not be available to low resource languages. Our novel approach addresses this challenge by halting synthesis at the semantic representation level, bypassing the need for TTS. We achieve this by aligning synthetic semantic representations with the pre-trained Whisper encoder, enabling an LLM to be fine-tuned on text instructions while maintaining the ability to understand spoken instructions during inference. This simplified training process is a promising approach to building voice assistant for low-resource languages.
PDF142May 26, 2025