Het destilleren van een end-to-end spraakassistent zonder instructietraining Gegevens
Distilling an End-to-End Voice Assistant Without Instruction Training Data
October 3, 2024
Auteurs: William Held, Ella Li, Michael Ryan, Weiyan Shi, Yanzhe Zhang, Diyi Yang
cs.AI
Samenvatting
Stemassistenten, zoals Siri en Google Assistent, modelleren doorgaans audio en tekst apart, wat leidt tot verloren spraakinformatie en verhoogde complexiteit. Recente inspanningen om dit aan te pakken met end-to-end Spraak Grote Taalmodellen (LLM's) die getraind zijn met begeleide fine-tuning (SFT) hebben ertoe geleid dat modellen "vergeten" capaciteiten van alleen-tekst LLM's. Ons werk stelt een alternatief paradigma voor voor het trainen van Spraak LLM's zonder instructiedata, door gebruik te maken van de reactie van een alleen-tekst LLM op transcripties als zelftoezicht. Belangrijk is dat dit proces kan worden uitgevoerd zonder geannoteerde reacties. We tonen aan dat onze Gedistilleerde Stemassistent (DiVA) generaliseert naar Gesproken Vraag-antwoord, Classificatie en Vertaling. Bovendien laten we zien dat DiVA beter voldoet aan de gebruikersvoorkeuren, met een winstpercentage van 72% in vergelijking met state-of-the-art modellen zoals Qwen 2 Audio, ondanks het gebruik van >100x minder trainingsberekeningen.
English
Voice assistants, such as Siri and Google Assistant, typically model audio
and text separately, resulting in lost speech information and increased
complexity. Recent efforts to address this with end-to-end Speech Large
Language Models (LLMs) trained with supervised finetuning (SFT)
have led to models ``forgetting" capabilities from text-only LLMs. Our work
proposes an alternative paradigm for training Speech LLMs without instruction
data, using the response of a text-only LLM to transcripts as self-supervision.
Importantly, this process can be performed without annotated responses. We show
that our Distilled Voice Assistant (DiVA) generalizes to Spoken Question
Answering, Classification, and Translation. Furthermore, we show that DiVA
better meets user preferences, achieving a 72\% win rate compared with
state-of-the-art models like Qwen 2 Audio, despite using >100x less training
compute.Summary
AI-Generated Summary