デコーダのみの大規模言語モデルを用いた音声テキスト翻訳の検討
Investigating Decoder-only Large Language Models for Speech-to-text Translation
July 3, 2024
著者: Chao-Wei Huang, Hui Lu, Hongyu Gong, Hirofumi Inaguma, Ilia Kulikov, Ruslan Mavlyutov, Sravya Popuri
cs.AI
要旨
大規模言語モデル(LLMs)は、その卓越した推論能力、汎用性、そして多様な領域における流暢さで知られており、音声関連タスクの強化に向けた有望な道筋を示しています。本論文では、デコーダのみのLLMsを音声テキスト翻訳(S2TT)タスクに統合することに焦点を当てます。我々は、LLMが直接エンコードされた音声表現を消費し、テキスト翻訳を生成することを可能にするデコーダのみのアーキテクチャを提案します。さらに、異なるパラメータ効率的なファインチューニング技術とタスク定式化の効果を調査します。我々のモデルは、独自データを使用せずに訓練されたモデルの中で、CoVoST 2とFLEURSにおいて最先端の性能を達成します。また、提案モデルの設計選択を検証し、LLMsをS2TTに統合するための洞察をもたらすための分析も行います。
English
Large language models (LLMs), known for their exceptional reasoning
capabilities, generalizability, and fluency across diverse domains, present a
promising avenue for enhancing speech-related tasks. In this paper, we focus on
integrating decoder-only LLMs to the task of speech-to-text translation (S2TT).
We propose a decoder-only architecture that enables the LLM to directly consume
the encoded speech representation and generate the text translation.
Additionally, we investigate the effects of different parameter-efficient
fine-tuning techniques and task formulation. Our model achieves
state-of-the-art performance on CoVoST 2 and FLEURS among models trained
without proprietary data. We also conduct analyses to validate the design
choices of our proposed model and bring insights to the integration of LLMs to
S2TT.Summary
AI-Generated Summary