Сжатие конечного голосового помощника без обучения по инструкции Данные
Distilling an End-to-End Voice Assistant Without Instruction Training Data
October 3, 2024
Авторы: William Held, Ella Li, Michael Ryan, Weiyan Shi, Yanzhe Zhang, Diyi Yang
cs.AI
Аннотация
Голосовые помощники, такие как Siri и Google Assistant, обычно моделируют аудио и текст отдельно, что приводит к потере информации речи и увеличению сложности. Недавние усилия по решению этой проблемы с помощью конечных моделей большого языка речи (LLM), обученных с применением надзорного донастройки (SFT), привели к тому, что модели "забывают" возможности текстовых LLM. Наша работа предлагает альтернативную парадигму обучения речевых LLM без данных инструкций, используя ответ текстового LLM на транскрипты в качестве самонадзора. Важно, что этот процесс может быть выполнен без аннотированных ответов. Мы показываем, что наша Дистиллированная Голосовая Ассистентка (DiVA) обобщается на устный вопросно-ответный формат, классификацию и перевод. Более того, мы показываем, что DiVA лучше соответствует предпочтениям пользователей, достигая победного показателя 72\% по сравнению с передовыми моделями, такими как Qwen 2 Audio, несмотря на использование более чем в 100 раз меньшего объема вычислительных ресурсов для обучения.
English
Voice assistants, such as Siri and Google Assistant, typically model audio
and text separately, resulting in lost speech information and increased
complexity. Recent efforts to address this with end-to-end Speech Large
Language Models (LLMs) trained with supervised finetuning (SFT)
have led to models ``forgetting" capabilities from text-only LLMs. Our work
proposes an alternative paradigm for training Speech LLMs without instruction
data, using the response of a text-only LLM to transcripts as self-supervision.
Importantly, this process can be performed without annotated responses. We show
that our Distilled Voice Assistant (DiVA) generalizes to Spoken Question
Answering, Classification, and Translation. Furthermore, we show that DiVA
better meets user preferences, achieving a 72\% win rate compared with
state-of-the-art models like Qwen 2 Audio, despite using >100x less training
compute.Summary
AI-Generated Summary