De TOWER para SPIRE: Adicionando a Modalidade de Fala a um LLM Exclusivamente de Texto
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM
March 13, 2025
Autores: Kshitij Ambilduke, Ben Peters, Sonal Sannigrahi, Anil Keshwani, Tsz Kin Lam, Bruno Martins, Marcely Zanon Boito, André F. T. Martins
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) demonstraram desempenho notável e capacidades de generalização em múltiplos idiomas e tarefas, tornando-os alvos muito atraentes para integração de multimodalidade (por exemplo, imagens ou fala). Neste trabalho, estendemos um LLM existente para a modalidade de fala por meio de discretização de fala e pré-treinamento contínuo. Em particular, estamos interessados em LLMs multilíngues, como o TOWER, pois seu cenário de pré-treinamento nos permite tratar a entrada de fala discretizada como um idioma de tradução adicional. O modelo de código aberto resultante, SPIRE, é capaz de transcrever e traduzir entradas de fala em inglês, mantendo o desempenho original do TOWER em tarefas relacionadas à tradução, demonstrando que a integração de entrada de fala discretizada como um idioma adicional é viável durante a adaptação de LLMs. Disponibilizamos nosso código e modelos para a comunidade.
English
Large language models (LLMs) have shown remarkable performance and
generalization capabilities across multiple languages and tasks, making them
very attractive targets for multi-modality integration (e.g., images or
speech). In this work, we extend an existing LLM to the speech modality via
speech discretization and continued pre-training. In particular, we are
interested in multilingual LLMs, such as TOWER, as their pre-training setting
allows us to treat discretized speech input as an additional translation
language. The resulting open-source model, SPIRE, is able to transcribe and
translate English speech input while maintaining TOWER's original performance
on translation-related tasks, showcasing that discretized speech input
integration as an additional language is feasible during LLM adaptation. We
make our code and models available to the community.Summary
AI-Generated Summary