Destillation eines End-to-End-Sprachassistenten ohne Anleitungstraining Daten
Distilling an End-to-End Voice Assistant Without Instruction Training Data
October 3, 2024
Autoren: William Held, Ella Li, Michael Ryan, Weiyan Shi, Yanzhe Zhang, Diyi Yang
cs.AI
Zusammenfassung
Sprachassistenten wie Siri und Google Assistant modellieren in der Regel Audio und Text getrennt, was zu verlorenen Sprachinformationen und erhöhter Komplexität führt. Aktuelle Bemühungen, dies mit End-to-End-Sprachmodellen großer Sprache (LLMs) zu lösen, die mit überwachtem Feintuning (SFT) trainiert sind, haben dazu geführt, dass die Modelle Fähigkeiten von reinen Text-LLMs "vergessen". Unsere Arbeit schlägt ein alternatives Paradigma für das Training von Sprach-LLMs ohne Anweisungsdaten vor, indem wir die Reaktion eines reinen Text-LLMs auf Transkripte als Selbstüberwachung nutzen. Dieser Prozess kann wichtig ist, ohne annotierte Antworten durchgeführt werden. Wir zeigen, dass unser Distilled Voice Assistant (DiVA) auf gesprochene Frage-Antworten, Klassifizierung und Übersetzung verallgemeinert. Darüber hinaus zeigen wir, dass DiVA den Benutzerpräferenzen besser entspricht und eine Gewinnrate von 72\% im Vergleich zu modernsten Modellen wie Qwen 2 Audio erreicht, obwohl es mehr als 100-mal weniger Trainingsberechnungen verwendet.
English
Voice assistants, such as Siri and Google Assistant, typically model audio
and text separately, resulting in lost speech information and increased
complexity. Recent efforts to address this with end-to-end Speech Large
Language Models (LLMs) trained with supervised finetuning (SFT)
have led to models ``forgetting" capabilities from text-only LLMs. Our work
proposes an alternative paradigm for training Speech LLMs without instruction
data, using the response of a text-only LLM to transcripts as self-supervision.
Importantly, this process can be performed without annotated responses. We show
that our Distilled Voice Assistant (DiVA) generalizes to Spoken Question
Answering, Classification, and Translation. Furthermore, we show that DiVA
better meets user preferences, achieving a 72\% win rate compared with
state-of-the-art models like Qwen 2 Audio, despite using >100x less training
compute.Summary
AI-Generated Summary