ChatPaper.aiChatPaper

MinMo: Мультимодельная крупномасштабная языковая модель для беспрепятственного голосового взаимодействия

MinMo: A Multimodal Large Language Model for Seamless Voice Interaction

January 10, 2025
Авторы: Qian Chen, Yafeng Chen, Yanni Chen, Mengzhe Chen, Yingda Chen, Chong Deng, Zhihao Du, Ruize Gao, Changfeng Gao, Zhifu Gao, Yabin Li, Xiang Lv, Jiaqing Liu, Haoneng Luo, Bin Ma, Chongjia Ni, Xian Shi, Jialong Tang, Hui Wang, Hao Wang, Wen Wang, Yuxuan Wang, Yunlan Xu, Fan Yu, Zhijie Yan, Yexin Yang, Baosong Yang, Xian Yang, Guanrou Yang, Tianyu Zhao, Qinglin Zhang, Shiliang Zhang, Nan Zhao, Pei Zhang, Chong Zhang, Jinren Zhou
cs.AI

Аннотация

Недавние достижения в области крупных языковых моделей (LLM) и мультимодальных моделей речь-текст заложили основу для беспрепятственного голосового взаимодействия, обеспечивая реальное время, естественные и похожие на человеческие разговоры. Предыдущие модели для голосового взаимодействия классифицируются как встроенные и выровненные. Встроенные модели интегрируют обработку речи и текста в одну структуру, но сталкиваются с проблемами, такими как различные длины последовательностей и недостаточное предварительное обучение. Выровненные модели сохраняют возможности текстовых LLM, но часто ограничены небольшими наборами данных и узким фокусом на задачах речи. В данной работе мы представляем MinMo, Мультимодальную Большую Языковую Модель с примерно 8 миллиардами параметров для беспрепятственного голосового взаимодействия. Мы решаем основные ограничения предыдущих выровненных мультимодальных моделей. Мы обучаем MinMo через несколько этапов выравнивания речи-текста, текста-речи, речи-речи и дуплексного взаимодействия, на 1,4 миллиона часов разнообразных речевых данных и широкий спектр речевых задач. После многоэтапного обучения MinMo достигает передового качества по различным бенчмаркам для понимания и генерации речи, сохраняя при этом возможности текстовых LLM, а также облегчает полнодуплексный разговор, то есть одновременное двустороннее общение между пользователем и системой. Более того, мы предлагаем новый и простой декодер речи, который превосходит предыдущие модели в генерации речи. Улучшенные возможности следования инструкциям MinMo поддерживают управление генерацией речи на основе инструкций пользователя, с различными нюансами, включая эмоции, диалекты и скорость речи, а также имитацию конкретных голосов. Для MinMo задержка от речи к тексту составляет примерно 100 мс, полнодуплексная задержка в теории составляет примерно 600 мс, а на практике 800 мс. Веб-страница проекта MinMo находится по адресу https://funaudiollm.github.io/minmo, и код и модели будут скоро опубликованы.
English
Recent advancements in large language models (LLMs) and multimodal speech-text models have laid the groundwork for seamless voice interactions, enabling real-time, natural, and human-like conversations. Previous models for voice interactions are categorized as native and aligned. Native models integrate speech and text processing in one framework but struggle with issues like differing sequence lengths and insufficient pre-training. Aligned models maintain text LLM capabilities but are often limited by small datasets and a narrow focus on speech tasks. In this work, we introduce MinMo, a Multimodal Large Language Model with approximately 8B parameters for seamless voice interaction. We address the main limitations of prior aligned multimodal models. We train MinMo through multiple stages of speech-to-text alignment, text-to-speech alignment, speech-to-speech alignment, and duplex interaction alignment, on 1.4 million hours of diverse speech data and a broad range of speech tasks. After the multi-stage training, MinMo achieves state-of-the-art performance across various benchmarks for voice comprehension and generation while maintaining the capabilities of text LLMs, and also facilitates full-duplex conversation, that is, simultaneous two-way communication between the user and the system. Moreover, we propose a novel and simple voice decoder that outperforms prior models in voice generation. The enhanced instruction-following capabilities of MinMo supports controlling speech generation based on user instructions, with various nuances including emotions, dialects, and speaking rates, and mimicking specific voices. For MinMo, the speech-to-text latency is approximately 100ms, full-duplex latency is approximately 600ms in theory and 800ms in practice. The MinMo project web page is https://funaudiollm.github.io/minmo, and the code and models will be released soon.

Summary

AI-Generated Summary

PDF517January 14, 2025