Sobre a arquitetura somente com decodificador para integração de conversão de fala em texto e modelos de linguagem de grande escala

Resumo

Modelos de linguagem de grande escala (LLMs) alcançaram sucesso notável no campo do processamento de linguagem natural, permitindo uma melhor interação humano-computador por meio de linguagem natural. No entanto, a integração perfeita de sinais de fala em LLMs ainda não foi bem explorada. A arquitetura "decoder-only" também não foi amplamente estudada para tarefas de processamento de fala. Nesta pesquisa, apresentamos o Speech-LLaMA, uma abordagem inovadora que incorpora efetivamente informações acústicas em modelos de linguagem de grande escala baseados em texto. Nosso método utiliza a Classificação Temporal Conexionista e um codificador de áudio simples para mapear as características acústicas comprimidas para o espaço semântico contínuo do LLM. Além disso, investigamos a arquitetura decoder-only para tarefas de conversão de fala em texto, treinando um modelo Speech-LLaMA de menor escala, inicializado aleatoriamente, apenas com dados emparelhados de fala e texto. Realizamos experimentos em tarefas de tradução de fala para texto multilingue e demonstramos uma melhoria significativa em relação a baselines robustas, destacando as vantagens potenciais dos modelos decoder-only para conversão de fala em texto.

English

Large language models (LLMs) have achieved remarkable success in the field of natural language processing, enabling better human-computer interaction using natural language. However, the seamless integration of speech signals into LLMs has not been explored well. The "decoder-only" architecture has also not been well studied for speech processing tasks. In this research, we introduce Speech-LLaMA, a novel approach that effectively incorporates acoustic information into text-based large language models. Our method leverages Connectionist Temporal Classification and a simple audio encoder to map the compressed acoustic features to the continuous semantic space of the LLM. In addition, we further probe the decoder-only architecture for speech-to-text tasks by training a smaller scale randomly initialized speech-LLaMA model from speech-text paired data alone. We conduct experiments on multilingual speech-to-text translation tasks and demonstrate a significant improvement over strong baselines, highlighting the potential advantages of decoder-only models for speech-to-text conversion.

Sobre a arquitetura somente com decodificador para integração de conversão de fala em texto e modelos de linguagem de grande escala

On decoder-only architecture for speech-to-text and large language model integration

Resumo

Support