음성-텍스트 번역을 위한 디코더 전용 대형 언어 모델 연구
Investigating Decoder-only Large Language Models for Speech-to-text Translation
July 3, 2024
저자: Chao-Wei Huang, Hui Lu, Hongyu Gong, Hirofumi Inaguma, Ilia Kulikov, Ruslan Mavlyutov, Sravya Popuri
cs.AI
초록
다양한 도메인에서 탁월한 추론 능력, 일반화 성능, 그리고 유창함으로 알려진 대형 언어 모델(LLMs)은 음성 관련 작업을 향상시키기 위한 유망한 접근법을 제시합니다. 본 논문에서는 디코더 전용 LLMs를 음성-텍스트 번역(S2TT) 작업에 통합하는 데 초점을 맞춥니다. 우리는 LLM이 인코딩된 음성 표현을 직접 활용하고 텍스트 번역을 생성할 수 있는 디코더 전용 아키텍처를 제안합니다. 또한, 다양한 파라미터 효율적 미세 조정 기법과 작업 구성의 효과를 조사합니다. 우리의 모델은 독점 데이터 없이 학습된 모델 중 CoVoST 2와 FLEURS에서 최첨단 성능을 달성합니다. 또한, 제안된 모델의 설계 선택을 검증하기 위한 분석을 수행하고 LLMs를 S2TT에 통합하는 데 대한 통찰을 제공합니다.
English
Large language models (LLMs), known for their exceptional reasoning
capabilities, generalizability, and fluency across diverse domains, present a
promising avenue for enhancing speech-related tasks. In this paper, we focus on
integrating decoder-only LLMs to the task of speech-to-text translation (S2TT).
We propose a decoder-only architecture that enables the LLM to directly consume
the encoded speech representation and generate the text translation.
Additionally, we investigate the effects of different parameter-efficient
fine-tuning techniques and task formulation. Our model achieves
state-of-the-art performance on CoVoST 2 and FLEURS among models trained
without proprietary data. We also conduct analyses to validate the design
choices of our proposed model and bring insights to the integration of LLMs to
S2TT.Summary
AI-Generated Summary