ChatPaper.aiChatPaper

Sobre a arquitetura somente com decodificador para integração de conversão de fala em texto e modelos de linguagem de grande escala

On decoder-only architecture for speech-to-text and large language model integration

July 8, 2023
Autores: Jian Wu, Yashesh Gaur, Zhuo Chen, Long Zhou, Yimeng Zhu, Tianrui Wang, Jinyu Li, Shujie Liu, Bo Ren, Linquan Liu, Yu Wu
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) alcançaram sucesso notável no campo do processamento de linguagem natural, permitindo uma melhor interação humano-computador por meio de linguagem natural. No entanto, a integração perfeita de sinais de fala em LLMs ainda não foi bem explorada. A arquitetura "decoder-only" também não foi amplamente estudada para tarefas de processamento de fala. Nesta pesquisa, apresentamos o Speech-LLaMA, uma abordagem inovadora que incorpora efetivamente informações acústicas em modelos de linguagem de grande escala baseados em texto. Nosso método utiliza a Classificação Temporal Conexionista e um codificador de áudio simples para mapear as características acústicas comprimidas para o espaço semântico contínuo do LLM. Além disso, investigamos a arquitetura decoder-only para tarefas de conversão de fala em texto, treinando um modelo Speech-LLaMA de menor escala, inicializado aleatoriamente, apenas com dados emparelhados de fala e texto. Realizamos experimentos em tarefas de tradução de fala para texto multilingue e demonstramos uma melhoria significativa em relação a baselines robustas, destacando as vantagens potenciais dos modelos decoder-only para conversão de fala em texto.
English
Large language models (LLMs) have achieved remarkable success in the field of natural language processing, enabling better human-computer interaction using natural language. However, the seamless integration of speech signals into LLMs has not been explored well. The "decoder-only" architecture has also not been well studied for speech processing tasks. In this research, we introduce Speech-LLaMA, a novel approach that effectively incorporates acoustic information into text-based large language models. Our method leverages Connectionist Temporal Classification and a simple audio encoder to map the compressed acoustic features to the continuous semantic space of the LLM. In addition, we further probe the decoder-only architecture for speech-to-text tasks by training a smaller scale randomly initialized speech-LLaMA model from speech-text paired data alone. We conduct experiments on multilingual speech-to-text translation tasks and demonstrate a significant improvement over strong baselines, highlighting the potential advantages of decoder-only models for speech-to-text conversion.
PDF70December 15, 2024