MinMo: Un modelo de lenguaje grande multimodal para una interacción de voz fluida
MinMo: A Multimodal Large Language Model for Seamless Voice Interaction
January 10, 2025
Autores: Qian Chen, Yafeng Chen, Yanni Chen, Mengzhe Chen, Yingda Chen, Chong Deng, Zhihao Du, Ruize Gao, Changfeng Gao, Zhifu Gao, Yabin Li, Xiang Lv, Jiaqing Liu, Haoneng Luo, Bin Ma, Chongjia Ni, Xian Shi, Jialong Tang, Hui Wang, Hao Wang, Wen Wang, Yuxuan Wang, Yunlan Xu, Fan Yu, Zhijie Yan, Yexin Yang, Baosong Yang, Xian Yang, Guanrou Yang, Tianyu Zhao, Qinglin Zhang, Shiliang Zhang, Nan Zhao, Pei Zhang, Chong Zhang, Jinren Zhou
cs.AI
Resumen
Los recientes avances en modelos de lenguaje grandes (LLMs, por sus siglas en inglés) y modelos multimodales de habla-texto han sentado las bases para interacciones de voz fluidas, permitiendo conversaciones en tiempo real, naturales y humanas. Los modelos previos para interacciones de voz se clasifican como nativos y alineados. Los modelos nativos integran el procesamiento de habla y texto en un marco único pero enfrentan problemas como diferentes longitudes de secuencia y pre-entrenamiento insuficiente. Los modelos alineados mantienen las capacidades de LLM de texto pero a menudo están limitados por conjuntos de datos pequeños y un enfoque estrecho en tareas de habla. En este trabajo, presentamos MinMo, un Modelo de Lenguaje Grande Multimodal con aproximadamente 8 mil millones de parámetros para interacción de voz fluida. Abordamos las principales limitaciones de los modelos multimodales alineados previos. Entrenamos MinMo a través de múltiples etapas de alineación de habla a texto, alineación de texto a habla, alineación de habla a habla e interacción dúplex, en 1.4 millones de horas de datos de habla diversos y una amplia gama de tareas de habla. Después del entrenamiento en múltiples etapas, MinMo logra un rendimiento de vanguardia en diversos puntos de referencia para comprensión y generación de voz, manteniendo las capacidades de los LLM de texto, y también facilita la conversación dúplex completa, es decir, comunicación bidireccional simultánea entre el usuario y el sistema. Además, proponemos un decodificador de voz novedoso y simple que supera a los modelos previos en generación de voz. Las capacidades mejoradas de seguimiento de instrucciones de MinMo admiten el control de la generación de habla basado en instrucciones del usuario, con varios matices que incluyen emociones, dialectos, tasas de habla e imitación de voces específicas. Para MinMo, la latencia de habla a texto es de aproximadamente 100 ms, la latencia dúplex es de aproximadamente 600 ms en teoría y 800 ms en la práctica. La página web del proyecto MinMo es https://funaudiollm.github.io/minmo, y el código y los modelos se lanzarán pronto.
English
Recent advancements in large language models (LLMs) and multimodal
speech-text models have laid the groundwork for seamless voice interactions,
enabling real-time, natural, and human-like conversations. Previous models for
voice interactions are categorized as native and aligned. Native models
integrate speech and text processing in one framework but struggle with issues
like differing sequence lengths and insufficient pre-training. Aligned models
maintain text LLM capabilities but are often limited by small datasets and a
narrow focus on speech tasks. In this work, we introduce MinMo, a Multimodal
Large Language Model with approximately 8B parameters for seamless voice
interaction. We address the main limitations of prior aligned multimodal
models. We train MinMo through multiple stages of speech-to-text alignment,
text-to-speech alignment, speech-to-speech alignment, and duplex interaction
alignment, on 1.4 million hours of diverse speech data and a broad range of
speech tasks. After the multi-stage training, MinMo achieves state-of-the-art
performance across various benchmarks for voice comprehension and generation
while maintaining the capabilities of text LLMs, and also facilitates
full-duplex conversation, that is, simultaneous two-way communication between
the user and the system. Moreover, we propose a novel and simple voice decoder
that outperforms prior models in voice generation. The enhanced
instruction-following capabilities of MinMo supports controlling speech
generation based on user instructions, with various nuances including emotions,
dialects, and speaking rates, and mimicking specific voices. For MinMo, the
speech-to-text latency is approximately 100ms, full-duplex latency is
approximately 600ms in theory and 800ms in practice. The MinMo project web page
is https://funaudiollm.github.io/minmo, and the code and models will be
released soon.Summary
AI-Generated Summary