ChatPaper.aiChatPaper

De TOWER a SPIRE: Incorporación de la modalidad de habla a un LLM exclusivamente de texto

From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM

March 13, 2025
Autores: Kshitij Ambilduke, Ben Peters, Sonal Sannigrahi, Anil Keshwani, Tsz Kin Lam, Bruno Martins, Marcely Zanon Boito, André F. T. Martins
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable y capacidades de generalización en múltiples idiomas y tareas, lo que los convierte en objetivos muy atractivos para la integración de múltiples modalidades (por ejemplo, imágenes o habla). En este trabajo, extendemos un LLM existente a la modalidad de habla mediante la discretización del habla y un preentrenamiento continuo. En particular, nos interesan los LLMs multilingües, como TOWER, ya que su configuración de preentrenamiento nos permite tratar la entrada de habla discretizada como un idioma de traducción adicional. El modelo de código abierto resultante, SPIRE, es capaz de transcribir y traducir entradas de habla en inglés mientras mantiene el rendimiento original de TOWER en tareas relacionadas con la traducción, demostrando que la integración de entradas de habla discretizada como un idioma adicional es factible durante la adaptación de LLMs. Ponemos nuestro código y modelos a disposición de la comunidad.
English
Large language models (LLMs) have shown remarkable performance and generalization capabilities across multiple languages and tasks, making them very attractive targets for multi-modality integration (e.g., images or speech). In this work, we extend an existing LLM to the speech modality via speech discretization and continued pre-training. In particular, we are interested in multilingual LLMs, such as TOWER, as their pre-training setting allows us to treat discretized speech input as an additional translation language. The resulting open-source model, SPIRE, is able to transcribe and translate English speech input while maintaining TOWER's original performance on translation-related tasks, showcasing that discretized speech input integration as an additional language is feasible during LLM adaptation. We make our code and models available to the community.

Summary

AI-Generated Summary

PDF72March 17, 2025