Destilando um Assistente de Voz de Ponta a Ponta Sem Treinamento por Instrução Dados

Resumo

Assistentes de voz, como Siri e Google Assistant, geralmente modelam áudio e texto separadamente, resultando na perda de informações da fala e em uma complexidade aumentada. Esforços recentes para lidar com isso, por meio de Modelos de Linguagem Grande (LLMs) de Fala de Ponta a Ponta treinados com ajuste fino supervisionado (SFT), levaram a modelos que "esquecem" capacidades dos LLMs apenas de texto. Nosso trabalho propõe um paradigma alternativo para treinar LLMs de Fala sem dados de instrução, utilizando a resposta de um LLM apenas de texto aos transcritos como auto-supervisão. Importante ressaltar que esse processo pode ser realizado sem respostas anotadas. Mostramos que nosso Assistente de Voz Destilado (DiVA) generaliza para Respostas a Perguntas Faladas, Classificação e Tradução. Além disso, demonstramos que o DiVA atende melhor às preferências dos usuários, alcançando uma taxa de vitória de 72% em comparação com modelos de ponta como Qwen 2 Áudio, apesar de usar mais de 100 vezes menos poder computacional de treinamento.

English

Voice assistants, such as Siri and Google Assistant, typically model audio and text separately, resulting in lost speech information and increased complexity. Recent efforts to address this with end-to-end Speech Large Language Models (LLMs) trained with supervised finetuning (SFT) have led to models ``forgetting" capabilities from text-only LLMs. Our work proposes an alternative paradigm for training Speech LLMs without instruction data, using the response of a text-only LLM to transcripts as self-supervision. Importantly, this process can be performed without annotated responses. We show that our Distilled Voice Assistant (DiVA) generalizes to Spoken Question Answering, Classification, and Translation. Furthermore, we show that DiVA better meets user preferences, achieving a 72\% win rate compared with state-of-the-art models like Qwen 2 Audio, despite using >100x less training compute.

Destilando um Assistente de Voz de Ponta a Ponta Sem Treinamento por Instrução Dados

Distilling an End-to-End Voice Assistant Without Instruction Training Data

Resumo

Support