MinMo : Un grand modèle de langage multimodal pour une interaction vocale transparente
MinMo: A Multimodal Large Language Model for Seamless Voice Interaction
January 10, 2025
Auteurs: Qian Chen, Yafeng Chen, Yanni Chen, Mengzhe Chen, Yingda Chen, Chong Deng, Zhihao Du, Ruize Gao, Changfeng Gao, Zhifu Gao, Yabin Li, Xiang Lv, Jiaqing Liu, Haoneng Luo, Bin Ma, Chongjia Ni, Xian Shi, Jialong Tang, Hui Wang, Hao Wang, Wen Wang, Yuxuan Wang, Yunlan Xu, Fan Yu, Zhijie Yan, Yexin Yang, Baosong Yang, Xian Yang, Guanrou Yang, Tianyu Zhao, Qinglin Zhang, Shiliang Zhang, Nan Zhao, Pei Zhang, Chong Zhang, Jinren Zhou
cs.AI
Résumé
Les récents progrès réalisés dans les grands modèles de langage (LLM) et les modèles multimodaux de parole-texte ont jeté les bases pour des interactions vocales fluides, permettant des conversations en temps réel, naturelles et semblables à celles entre humains. Les modèles précédents pour les interactions vocales sont catégorisés comme natifs et alignés. Les modèles natifs intègrent le traitement de la parole et du texte dans un seul cadre mais rencontrent des problèmes tels que des longueurs de séquence différentes et un pré-entraînement insuffisant. Les modèles alignés conservent les capacités des LLM de texte mais sont souvent limités par de petits ensembles de données et un focus étroit sur les tâches de parole. Dans ce travail, nous présentons MinMo, un Grand Modèle de Langage Multimodal avec environ 8 milliards de paramètres pour des interactions vocales fluides. Nous abordons les principales limitations des modèles multimodaux alignés précédents. Nous entraînons MinMo à travers plusieurs étapes d'alignement de la parole au texte, du texte à la parole, de la parole à la parole, et de l'interaction duplex, sur 1,4 million d'heures de données vocales diverses et une large gamme de tâches de parole. Après l'entraînement en plusieurs étapes, MinMo atteint des performances de pointe sur divers benchmarks pour la compréhension et la génération vocales tout en conservant les capacités des LLM de texte, et facilite également la conversation full-duplex, c'est-à-dire une communication bidirectionnelle simultanée entre l'utilisateur et le système. De plus, nous proposons un décodeur vocal novateur et simple qui surpasse les modèles précédents en termes de génération vocale. Les capacités améliorées de suivi des instructions de MinMo permettent de contrôler la génération de parole en fonction des instructions de l'utilisateur, avec diverses nuances incluant les émotions, les dialectes et les vitesses de parole, et l'imitation de voix spécifiques. Pour MinMo, la latence de la parole au texte est d'environ 100ms, la latence full-duplex est d'environ 600ms en théorie et 800ms en pratique. La page web du projet MinMo est https://funaudiollm.github.io/minmo, et le code et les modèles seront bientôt publiés.
English
Recent advancements in large language models (LLMs) and multimodal
speech-text models have laid the groundwork for seamless voice interactions,
enabling real-time, natural, and human-like conversations. Previous models for
voice interactions are categorized as native and aligned. Native models
integrate speech and text processing in one framework but struggle with issues
like differing sequence lengths and insufficient pre-training. Aligned models
maintain text LLM capabilities but are often limited by small datasets and a
narrow focus on speech tasks. In this work, we introduce MinMo, a Multimodal
Large Language Model with approximately 8B parameters for seamless voice
interaction. We address the main limitations of prior aligned multimodal
models. We train MinMo through multiple stages of speech-to-text alignment,
text-to-speech alignment, speech-to-speech alignment, and duplex interaction
alignment, on 1.4 million hours of diverse speech data and a broad range of
speech tasks. After the multi-stage training, MinMo achieves state-of-the-art
performance across various benchmarks for voice comprehension and generation
while maintaining the capabilities of text LLMs, and also facilitates
full-duplex conversation, that is, simultaneous two-way communication between
the user and the system. Moreover, we propose a novel and simple voice decoder
that outperforms prior models in voice generation. The enhanced
instruction-following capabilities of MinMo supports controlling speech
generation based on user instructions, with various nuances including emotions,
dialects, and speaking rates, and mimicking specific voices. For MinMo, the
speech-to-text latency is approximately 100ms, full-duplex latency is
approximately 600ms in theory and 800ms in practice. The MinMo project web page
is https://funaudiollm.github.io/minmo, and the code and models will be
released soon.