FunAudioLLM: Modelos Fundamentais de Compreensão e Geração de Voz para Interação Natural entre Humanos e LLMs
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs
July 4, 2024
Autores: Tongyi SpeechTeam
cs.AI
Resumo
Este relatório apresenta o FunAudioLLM, uma família de modelos projetada para aprimorar interações de voz naturais entre humanos e grandes modelos de linguagem (LLMs). Em seu núcleo estão dois modelos inovadores: SenseVoice, que lida com reconhecimento de fala multilíngue, reconhecimento de emoções e detecção de eventos de áudio; e CosyVoice, que facilita a geração de fala natural com controle sobre múltiplos idiomas, timbre, estilo de fala e identidade do locutor. O SenseVoice-Small oferece ASR de latência excepcionalmente baixa para 5 idiomas, e o SenseVoice-Large suporta ASR de alta precisão para mais de 50 idiomas, enquanto o CosyVoice se destaca na geração de voz multilíngue, aprendizado in-contexto de zero-shot, clonagem de voz cross-lingual e capacidades de seguir instruções. Os modelos relacionados ao SenseVoice e CosyVoice foram disponibilizados em código aberto no Modelscope e Huggingface, juntamente com os códigos correspondentes de treinamento, inferência e ajuste fino lançados no GitHub. Ao integrar esses modelos com LLMs, o FunAudioLLM possibilita aplicações como tradução de fala para fala, bate-papo de voz emocional, podcasts interativos e narração expressiva de audiolivros, empurrando assim os limites da tecnologia de interação por voz. Demonstrativos estão disponíveis em https://fun-audio-llm.github.io, e o código pode ser acessado em https://github.com/FunAudioLLM.
English
This report introduces FunAudioLLM, a model family designed to enhance
natural voice interactions between humans and large language models (LLMs). At
its core are two innovative models: SenseVoice, which handles multilingual
speech recognition, emotion recognition, and audio event detection; and
CosyVoice, which facilitates natural speech generation with control over
multiple languages, timbre, speaking style, and speaker identity.
SenseVoice-Small delivers exceptionally low-latency ASR for 5 languages, and
SenseVoice-Large supports high-precision ASR for over 50 languages, while
CosyVoice excels in multi-lingual voice generation, zero-shot in-context
learning, cross-lingual voice cloning, and instruction-following capabilities.
The models related to SenseVoice and CosyVoice have been open-sourced on
Modelscope and Huggingface, along with the corresponding training, inference,
and fine-tuning codes released on GitHub. By integrating these models with
LLMs, FunAudioLLM enables applications such as speech-to-speech translation,
emotional voice chat, interactive podcasts, and expressive audiobook narration,
thereby pushing the boundaries of voice interaction technology. Demos are
available at https://fun-audio-llm.github.io, and the code can be accessed at
https://github.com/FunAudioLLM.