Da TOWER a SPIRE: Aggiungere la modalità vocale a un LLM esclusivamente testuale
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM
March 13, 2025
Autori: Kshitij Ambilduke, Ben Peters, Sonal Sannigrahi, Anil Keshwani, Tsz Kin Lam, Bruno Martins, Marcely Zanon Boito, André F. T. Martins
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato prestazioni e capacità di generalizzazione notevoli attraverso più lingue e compiti, rendendoli obiettivi molto attraenti per l'integrazione multimodale (ad esempio, immagini o parlato). In questo lavoro, estendiamo un LLM esistente alla modalità del parlato tramite discretizzazione del parlato e pre-addestramento continuato. In particolare, siamo interessati ai LLM multilingue, come TOWER, poiché il loro contesto di pre-addestramento ci consente di trattare l'input di parlato discretizzato come una lingua di traduzione aggiuntiva. Il modello open-source risultante, SPIRE, è in grado di trascrivere e tradurre l'input di parlato in inglese mantenendo le prestazioni originali di TOWER sui compiti legati alla traduzione, dimostrando che l'integrazione dell'input di parlato discretizzato come lingua aggiuntiva è fattibile durante l'adattamento degli LLM. Rendiamo disponibili il nostro codice e i nostri modelli alla comunità.
English
Large language models (LLMs) have shown remarkable performance and
generalization capabilities across multiple languages and tasks, making them
very attractive targets for multi-modality integration (e.g., images or
speech). In this work, we extend an existing LLM to the speech modality via
speech discretization and continued pre-training. In particular, we are
interested in multilingual LLMs, such as TOWER, as their pre-training setting
allows us to treat discretized speech input as an additional translation
language. The resulting open-source model, SPIRE, is able to transcribe and
translate English speech input while maintaining TOWER's original performance
on translation-related tasks, showcasing that discretized speech input
integration as an additional language is feasible during LLM adaptation. We
make our code and models available to the community.