Об архитектуре только с декодером для интеграции преобразования речи в текст и крупных языковых моделей
On decoder-only architecture for speech-to-text and large language model integration
July 8, 2023
Авторы: Jian Wu, Yashesh Gaur, Zhuo Chen, Long Zhou, Yimeng Zhu, Tianrui Wang, Jinyu Li, Shujie Liu, Bo Ren, Linquan Liu, Yu Wu
cs.AI
Аннотация
Крупные языковые модели (LLM) достигли значительных успехов в области обработки естественного языка, улучшив взаимодействие человека и компьютера с использованием естественной речи. Однако интеграция речевых сигналов в LLM до сих пор изучена недостаточно. Архитектура "только декодер" также не была хорошо исследована для задач обработки речи. В данной работе мы представляем Speech-LLaMA — новый подход, который эффективно интегрирует акустическую информацию в текстовые крупные языковые модели. Наш метод использует Connectionist Temporal Classification и простой аудио-энкодер для отображения сжатых акустических признаков в непрерывное семантическое пространство LLM. Кроме того, мы исследуем архитектуру "только декодер" для задач преобразования речи в текст, обучая меньшую по масштабу модель Speech-LLaMA с случайной инициализацией исключительно на парных данных "речь-текст". Мы проводим эксперименты на задачах многоязычного перевода речи в текст и демонстрируем значительное улучшение по сравнению с сильными базовыми моделями, подчеркивая потенциальные преимущества моделей "только декодер" для преобразования речи в текст.
English
Large language models (LLMs) have achieved remarkable success in the field of
natural language processing, enabling better human-computer interaction using
natural language. However, the seamless integration of speech signals into LLMs
has not been explored well. The "decoder-only" architecture has also not been
well studied for speech processing tasks. In this research, we introduce
Speech-LLaMA, a novel approach that effectively incorporates acoustic
information into text-based large language models. Our method leverages
Connectionist Temporal Classification and a simple audio encoder to map the
compressed acoustic features to the continuous semantic space of the LLM. In
addition, we further probe the decoder-only architecture for speech-to-text
tasks by training a smaller scale randomly initialized speech-LLaMA model from
speech-text paired data alone. We conduct experiments on multilingual
speech-to-text translation tasks and demonstrate a significant improvement over
strong baselines, highlighting the potential advantages of decoder-only models
for speech-to-text conversion.