指示やトレーニングなしでエンドツーエンドの音声アシスタントを抽出するデータ
Distilling an End-to-End Voice Assistant Without Instruction Training Data
October 3, 2024
著者: William Held, Ella Li, Michael Ryan, Weiyan Shi, Yanzhe Zhang, Diyi Yang
cs.AI
要旨
SiriやGoogleアシスタントなどの音声アシスタントは、通常、音声とテキストを別々にモデル化しており、これにより音声情報が失われ、複雑さが増しています。最近の取り組みでは、教師付きファインチューニング(SFT)で訓練されたエンドツーエンドの音声大規模言語モデル(LLM)を用いてこれに対処し、テキストのみのLLMからの機能を「忘れる」モデルが生まれました。私たちの研究では、指導データを使用せずに音声LLMを訓練するための代替パラダイムを提案し、テキストのみのLLMの応答を自己監督として使用します。重要なことに、このプロセスは注釈付きの応答なしで実行できます。私たちは、私たちの蒸留音声アシスタント(DiVA)が、音声質問応答、分類、翻訳に汎化し、さらに、DiVAがQwen 2 Audioなどの最先端モデルよりもユーザーの好みにより適していることを示します。また、DiVAは、トレーニング計算量が100倍以上少ないにもかかわらず、72%の勝率を達成しています。
English
Voice assistants, such as Siri and Google Assistant, typically model audio
and text separately, resulting in lost speech information and increased
complexity. Recent efforts to address this with end-to-end Speech Large
Language Models (LLMs) trained with supervised finetuning (SFT)
have led to models ``forgetting" capabilities from text-only LLMs. Our work
proposes an alternative paradigm for training Speech LLMs without instruction
data, using the response of a text-only LLM to transcripts as self-supervision.
Importantly, this process can be performed without annotated responses. We show
that our Distilled Voice Assistant (DiVA) generalizes to Spoken Question
Answering, Classification, and Translation. Furthermore, we show that DiVA
better meets user preferences, achieving a 72\% win rate compared with
state-of-the-art models like Qwen 2 Audio, despite using >100x less training
compute.Summary
AI-Generated Summary