От TOWER к SPIRE: добавление речевой модальности к текстовой языковой модели
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM
March 13, 2025
Авторы: Kshitij Ambilduke, Ben Peters, Sonal Sannigrahi, Anil Keshwani, Tsz Kin Lam, Bruno Martins, Marcely Zanon Boito, André F. T. Martins
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали выдающуюся производительность и способность к обобщению в различных языках и задачах, что делает их привлекательными целями для интеграции с мультимодальностью (например, с изображениями или речью). В данной работе мы расширяем существующую LLM на речевую модальность с помощью дискретизации речи и продолженного предобучения. В частности, нас интересуют многоязычные LLM, такие как TOWER, поскольку их настройка предобучения позволяет рассматривать дискретизированную речь как дополнительный язык перевода. Полученная открытая модель SPIRE способна транскрибировать и переводить английскую речь, сохраняя при этом исходную производительность TOWER на задачах, связанных с переводом, что демонстрирует возможность интеграции дискретизированной речи в качестве дополнительного языка при адаптации LLM. Мы предоставляем наш код и модели сообществу.
English
Large language models (LLMs) have shown remarkable performance and
generalization capabilities across multiple languages and tasks, making them
very attractive targets for multi-modality integration (e.g., images or
speech). In this work, we extend an existing LLM to the speech modality via
speech discretization and continued pre-training. In particular, we are
interested in multilingual LLMs, such as TOWER, as their pre-training setting
allows us to treat discretized speech input as an additional translation
language. The resulting open-source model, SPIRE, is able to transcribe and
translate English speech input while maintaining TOWER's original performance
on translation-related tasks, showcasing that discretized speech input
integration as an additional language is feasible during LLM adaptation. We
make our code and models available to the community.Summary
AI-Generated Summary