De TOWER à SPIRE : Intégration de la modalité vocale à un modèle de langage exclusivement textuel
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM
March 13, 2025
Auteurs: Kshitij Ambilduke, Ben Peters, Sonal Sannigrahi, Anil Keshwani, Tsz Kin Lam, Bruno Martins, Marcely Zanon Boito, André F. T. Martins
cs.AI
Résumé
Les grands modèles de langage (LLM) ont démontré des performances remarquables et des capacités de généralisation à travers de multiples langues et tâches, ce qui en fait des cibles très attractives pour l'intégration multi-modale (par exemple, images ou parole). Dans ce travail, nous étendons un LLM existant à la modalité de la parole via la discrétisation de la parole et un pré-entraînement continu. Nous nous intéressons particulièrement aux LLM multilingues, tels que TOWER, car leur cadre de pré-entraînement nous permet de traiter la parole discrétisée comme une langue de traduction supplémentaire. Le modèle open-source résultant, SPIRE, est capable de transcrire et de traduire des entrées vocales en anglais tout en conservant les performances originales de TOWER sur les tâches liées à la traduction, démontrant ainsi que l'intégration de la parole discrétisée comme langue supplémentaire est réalisable lors de l'adaptation des LLM. Nous mettons notre code et nos modèles à disposition de la communauté.
English
Large language models (LLMs) have shown remarkable performance and
generalization capabilities across multiple languages and tasks, making them
very attractive targets for multi-modality integration (e.g., images or
speech). In this work, we extend an existing LLM to the speech modality via
speech discretization and continued pre-training. In particular, we are
interested in multilingual LLMs, such as TOWER, as their pre-training setting
allows us to treat discretized speech input as an additional translation
language. The resulting open-source model, SPIRE, is able to transcribe and
translate English speech input while maintaining TOWER's original performance
on translation-related tasks, showcasing that discretized speech input
integration as an additional language is feasible during LLM adaptation. We
make our code and models available to the community.Summary
AI-Generated Summary