ChatPaper.aiChatPaper

Da TOWER a SPIRE: Aggiungere la modalità vocale a un LLM esclusivamente testuale

From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM

March 13, 2025
Autori: Kshitij Ambilduke, Ben Peters, Sonal Sannigrahi, Anil Keshwani, Tsz Kin Lam, Bruno Martins, Marcely Zanon Boito, André F. T. Martins
cs.AI

Abstract

I grandi modelli linguistici (LLM) hanno dimostrato prestazioni e capacità di generalizzazione notevoli attraverso più lingue e compiti, rendendoli obiettivi molto attraenti per l'integrazione multimodale (ad esempio, immagini o parlato). In questo lavoro, estendiamo un LLM esistente alla modalità del parlato tramite discretizzazione del parlato e pre-addestramento continuato. In particolare, siamo interessati ai LLM multilingue, come TOWER, poiché il loro contesto di pre-addestramento ci consente di trattare l'input di parlato discretizzato come una lingua di traduzione aggiuntiva. Il modello open-source risultante, SPIRE, è in grado di trascrivere e tradurre l'input di parlato in inglese mantenendo le prestazioni originali di TOWER sui compiti legati alla traduzione, dimostrando che l'integrazione dell'input di parlato discretizzato come lingua aggiuntiva è fattibile durante l'adattamento degli LLM. Rendiamo disponibili il nostro codice e i nostri modelli alla comunità.
English
Large language models (LLMs) have shown remarkable performance and generalization capabilities across multiple languages and tasks, making them very attractive targets for multi-modality integration (e.g., images or speech). In this work, we extend an existing LLM to the speech modality via speech discretization and continued pre-training. In particular, we are interested in multilingual LLMs, such as TOWER, as their pre-training setting allows us to treat discretized speech input as an additional translation language. The resulting open-source model, SPIRE, is able to transcribe and translate English speech input while maintaining TOWER's original performance on translation-related tasks, showcasing that discretized speech input integration as an additional language is feasible during LLM adaptation. We make our code and models available to the community.
PDF72March 17, 2025