Estrarre un Assistente Vocale End-to-End Senza Addestramento con Istruzioni Dati
Distilling an End-to-End Voice Assistant Without Instruction Training Data
October 3, 2024
Autori: William Held, Ella Li, Michael Ryan, Weiyan Shi, Yanzhe Zhang, Diyi Yang
cs.AI
Abstract
Gli assistenti vocali, come Siri e Google Assistant, di solito modellano l'audio e il testo separatamente, il che porta alla perdita di informazioni vocali e a un aumento della complessità. Gli sforzi recenti per affrontare questo problema con modelli linguistici di grandi dimensioni (LLM) end-to-end per il linguaggio parlato, addestrati con il raffinamento supervisionato (SFT), hanno portato a modelli che "dimenticano" le capacità dei LLM basati solo sul testo. Il nostro lavoro propone un paradigma alternativo per addestrare LLM per il linguaggio parlato senza dati di istruzione, utilizzando la risposta di un LLM basato solo sul testo alle trascrizioni come auto-supervisione. È importante sottolineare che questo processo può essere eseguito senza risposte annotate. Dimostriamo che il nostro Assistente Vocale Distillato (DiVA) generalizza per la Risposta a Domande Parlate, la Classificazione e la Traduzione. Inoltre, dimostriamo che DiVA soddisfa meglio le preferenze degli utenti, ottenendo un tasso di successo del 72% rispetto a modelli all'avanguardia come Qwen 2 Audio, nonostante utilizzi più di 100 volte meno calcolo di addestramento.
English
Voice assistants, such as Siri and Google Assistant, typically model audio
and text separately, resulting in lost speech information and increased
complexity. Recent efforts to address this with end-to-end Speech Large
Language Models (LLMs) trained with supervised finetuning (SFT)
have led to models ``forgetting" capabilities from text-only LLMs. Our work
proposes an alternative paradigm for training Speech LLMs without instruction
data, using the response of a text-only LLM to transcripts as self-supervision.
Importantly, this process can be performed without annotated responses. We show
that our Distilled Voice Assistant (DiVA) generalizes to Spoken Question
Answering, Classification, and Translation. Furthermore, we show that DiVA
better meets user preferences, achieving a 72\% win rate compared with
state-of-the-art models like Qwen 2 Audio, despite using >100x less training
compute.