Van TOWER naar SPIRE: Het toevoegen van de spraakmodaliteit aan een tekstgebaseerd LLM
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM
March 13, 2025
Auteurs: Kshitij Ambilduke, Ben Peters, Sonal Sannigrahi, Anil Keshwani, Tsz Kin Lam, Bruno Martins, Marcely Zanon Boito, André F. T. Martins
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben opmerkelijke prestaties en generalisatiecapaciteiten getoond over meerdere talen en taken, waardoor ze zeer aantrekkelijke doelwitten zijn voor multi-modaliteitsintegratie (bijvoorbeeld afbeeldingen of spraak). In dit werk breiden we een bestaand LLM uit naar de spraakmodaliteit via spraakdiscretisatie en voortgezette voorafgaande training. We zijn vooral geïnteresseerd in meertalige LLMs, zoals TOWER, omdat hun voorafgaande trainingsopzet het mogelijk maakt om gediscretiseerde spraakinvoer te behandelen als een aanvullende vertaaltaal. Het resulterende open-source model, SPIRE, is in staat om Engelse spraakinvoer te transcriberen en te vertalen, terwijl het de oorspronkelijke prestaties van TOWER op vertaalgerelateerde taken behoudt. Dit toont aan dat de integratie van gediscretiseerde spraakinvoer als een aanvullende taal haalbaar is tijdens de aanpassing van LLMs. We stellen onze code en modellen beschikbaar aan de gemeenschap.
English
Large language models (LLMs) have shown remarkable performance and
generalization capabilities across multiple languages and tasks, making them
very attractive targets for multi-modality integration (e.g., images or
speech). In this work, we extend an existing LLM to the speech modality via
speech discretization and continued pre-training. In particular, we are
interested in multilingual LLMs, such as TOWER, as their pre-training setting
allows us to treat discretized speech input as an additional translation
language. The resulting open-source model, SPIRE, is able to transcribe and
translate English speech input while maintaining TOWER's original performance
on translation-related tasks, showcasing that discretized speech input
integration as an additional language is feasible during LLM adaptation. We
make our code and models available to the community.Summary
AI-Generated Summary