Extraction d'un Assistant Vocal de Bout en Bout sans Entraînement par Instruction Données
Distilling an End-to-End Voice Assistant Without Instruction Training Data
October 3, 2024
Auteurs: William Held, Ella Li, Michael Ryan, Weiyan Shi, Yanzhe Zhang, Diyi Yang
cs.AI
Résumé
Les assistants vocaux, tels que Siri et Google Assistant, modélisent généralement l'audio et le texte séparément, ce qui entraîne une perte d'informations vocales et une complexité accrue. Les récents efforts pour remédier à cela avec des Modèles de Langage Large (LLM) de bout en bout entraînés avec un affinage supervisé (SFT) ont conduit à des modèles "oubliant" des capacités des LLM textuels uniquement. Notre travail propose un paradigme alternatif pour former des LLM vocaux sans données d'instruction, en utilisant la réponse d'un LLM textuel aux transcriptions comme auto-supervision. Importamment, ce processus peut être réalisé sans réponses annotées. Nous montrons que notre Assistant Vocal Distillé (DiVA) se généralise à la Réponse à des Questions Orales, à la Classification et à la Traduction. De plus, nous montrons que DiVA répond mieux aux préférences des utilisateurs, atteignant un taux de réussite de 72 % par rapport aux modèles de pointe comme Qwen 2 Audio, malgré l'utilisation de >100 fois moins de puissance de calcul pour l'entraînement.
English
Voice assistants, such as Siri and Google Assistant, typically model audio
and text separately, resulting in lost speech information and increased
complexity. Recent efforts to address this with end-to-end Speech Large
Language Models (LLMs) trained with supervised finetuning (SFT)
have led to models ``forgetting" capabilities from text-only LLMs. Our work
proposes an alternative paradigm for training Speech LLMs without instruction
data, using the response of a text-only LLM to transcripts as self-supervision.
Importantly, this process can be performed without annotated responses. We show
that our Distilled Voice Assistant (DiVA) generalizes to Spoken Question
Answering, Classification, and Translation. Furthermore, we show that DiVA
better meets user preferences, achieving a 72\% win rate compared with
state-of-the-art models like Qwen 2 Audio, despite using >100x less training
compute.Summary
AI-Generated Summary