De TOWER à SPIRE : Intégration de la modalité vocale à un modèle de langage exclusivement textuel

papers.abstract

Les grands modèles de langage (LLM) ont démontré des performances remarquables et des capacités de généralisation à travers de multiples langues et tâches, ce qui en fait des cibles très attractives pour l'intégration multi-modale (par exemple, images ou parole). Dans ce travail, nous étendons un LLM existant à la modalité de la parole via la discrétisation de la parole et un pré-entraînement continu. Nous nous intéressons particulièrement aux LLM multilingues, tels que TOWER, car leur cadre de pré-entraînement nous permet de traiter la parole discrétisée comme une langue de traduction supplémentaire. Le modèle open-source résultant, SPIRE, est capable de transcrire et de traduire des entrées vocales en anglais tout en conservant les performances originales de TOWER sur les tâches liées à la traduction, démontrant ainsi que l'intégration de la parole discrétisée comme langue supplémentaire est réalisable lors de l'adaptation des LLM. Nous mettons notre code et nos modèles à disposition de la communauté.

English

Large language models (LLMs) have shown remarkable performance and generalization capabilities across multiple languages and tasks, making them very attractive targets for multi-modality integration (e.g., images or speech). In this work, we extend an existing LLM to the speech modality via speech discretization and continued pre-training. In particular, we are interested in multilingual LLMs, such as TOWER, as their pre-training setting allows us to treat discretized speech input as an additional translation language. The resulting open-source model, SPIRE, is able to transcribe and translate English speech input while maintaining TOWER's original performance on translation-related tasks, showcasing that discretized speech input integration as an additional language is feasible during LLM adaptation. We make our code and models available to the community.

De TOWER à SPIRE : Intégration de la modalité vocale à un modèle de langage exclusivement textuel

From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM

papers.abstract

Support