Destilando um Assistente de Voz de Ponta a Ponta Sem Treinamento por Instrução Dados
Distilling an End-to-End Voice Assistant Without Instruction Training Data
October 3, 2024
Autores: William Held, Ella Li, Michael Ryan, Weiyan Shi, Yanzhe Zhang, Diyi Yang
cs.AI
Resumo
Assistentes de voz, como Siri e Google Assistant, geralmente modelam áudio e texto separadamente, resultando na perda de informações da fala e em uma complexidade aumentada. Esforços recentes para lidar com isso, por meio de Modelos de Linguagem Grande (LLMs) de Fala de Ponta a Ponta treinados com ajuste fino supervisionado (SFT), levaram a modelos que "esquecem" capacidades dos LLMs apenas de texto. Nosso trabalho propõe um paradigma alternativo para treinar LLMs de Fala sem dados de instrução, utilizando a resposta de um LLM apenas de texto aos transcritos como auto-supervisão. Importante ressaltar que esse processo pode ser realizado sem respostas anotadas. Mostramos que nosso Assistente de Voz Destilado (DiVA) generaliza para Respostas a Perguntas Faladas, Classificação e Tradução. Além disso, demonstramos que o DiVA atende melhor às preferências dos usuários, alcançando uma taxa de vitória de 72% em comparação com modelos de ponta como Qwen 2 Áudio, apesar de usar mais de 100 vezes menos poder computacional de treinamento.
English
Voice assistants, such as Siri and Google Assistant, typically model audio
and text separately, resulting in lost speech information and increased
complexity. Recent efforts to address this with end-to-end Speech Large
Language Models (LLMs) trained with supervised finetuning (SFT)
have led to models ``forgetting" capabilities from text-only LLMs. Our work
proposes an alternative paradigm for training Speech LLMs without instruction
data, using the response of a text-only LLM to transcripts as self-supervision.
Importantly, this process can be performed without annotated responses. We show
that our Distilled Voice Assistant (DiVA) generalizes to Spoken Question
Answering, Classification, and Translation. Furthermore, we show that DiVA
better meets user preferences, achieving a 72\% win rate compared with
state-of-the-art models like Qwen 2 Audio, despite using >100x less training
compute.Summary
AI-Generated Summary