Destilando un Asistente de Voz de Extremo a Extremo Sin Entrenamiento con Instrucciones.
Distilling an End-to-End Voice Assistant Without Instruction Training Data
October 3, 2024
Autores: William Held, Ella Li, Michael Ryan, Weiyan Shi, Yanzhe Zhang, Diyi Yang
cs.AI
Resumen
Los asistentes de voz, como Siri y Google Assistant, suelen modelar el audio y el texto por separado, lo que resulta en la pérdida de información del habla y en una mayor complejidad. Los esfuerzos recientes para abordar esto con Modelos de Lenguaje Grande (LLMs) de Habla de Extremo a Extremo entrenados con ajuste fino supervisado (SFT) han llevado a que los modelos "olviden" capacidades de los LLMs solo de texto. Nuestro trabajo propone un paradigma alternativo para entrenar LLMs de Habla sin datos de instrucción, utilizando la respuesta de un LLM solo de texto a transcripciones como auto-supervisión. Es importante destacar que este proceso se puede realizar sin respuestas anotadas. Mostramos que nuestro Asistente de Voz Destilado (DiVA) se generaliza a Preguntas y Respuestas Habladas, Clasificación y Traducción. Además, demostramos que DiVA satisface mejor las preferencias de los usuarios, logrando una tasa de éxito del 72\% en comparación con modelos de vanguardia como Qwen 2 Audio, a pesar de utilizar >100 veces menos cómputo de entrenamiento.
English
Voice assistants, such as Siri and Google Assistant, typically model audio
and text separately, resulting in lost speech information and increased
complexity. Recent efforts to address this with end-to-end Speech Large
Language Models (LLMs) trained with supervised finetuning (SFT)
have led to models ``forgetting" capabilities from text-only LLMs. Our work
proposes an alternative paradigm for training Speech LLMs without instruction
data, using the response of a text-only LLM to transcripts as self-supervision.
Importantly, this process can be performed without annotated responses. We show
that our Distilled Voice Assistant (DiVA) generalizes to Spoken Question
Answering, Classification, and Translation. Furthermore, we show that DiVA
better meets user preferences, achieving a 72\% win rate compared with
state-of-the-art models like Qwen 2 Audio, despite using >100x less training
compute.Summary
AI-Generated Summary