FunAudioLLM: Modelli Fondamentali per la Comprensione e Generazione Vocale per Interazioni Naturali tra Umani e LLM
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs
July 4, 2024
Autori: Tongyi SpeechTeam
cs.AI
Abstract
Questo report introduce FunAudioLLM, una famiglia di modelli progettata per migliorare le interazioni vocali naturali tra esseri umani e grandi modelli linguistici (LLM). Al suo centro si trovano due modelli innovativi: SenseVoice, che gestisce il riconoscimento vocale multilingue, il riconoscimento delle emozioni e il rilevamento di eventi audio; e CosyVoice, che facilita la generazione di discorsi naturali con controllo su più lingue, timbro, stile di parlato e identità del parlante. SenseVoice-Small offre un riconoscimento vocale automatico (ASR) a latenza eccezionalmente bassa per 5 lingue, mentre SenseVoice-Large supporta un ASR ad alta precisione per oltre 50 lingue. CosyVoice eccelle nella generazione vocale multilingue, nell'apprendimento contestuale zero-shot, nel clonaggio vocale cross-linguale e nelle capacità di seguire istruzioni. I modelli relativi a SenseVoice e CosyVoice sono stati open-sourced su Modelscope e Huggingface, insieme ai codici di addestramento, inferenza e fine-tuning rilasciati su GitHub. Integrando questi modelli con gli LLM, FunAudioLLM abilita applicazioni come la traduzione da voce a voce, chat vocali emotive, podcast interattivi e narrazione espressiva di audiolibri, spingendo così i confini della tecnologia di interazione vocale. Le demo sono disponibili su https://fun-audio-llm.github.io, e il codice può essere consultato su https://github.com/FunAudioLLM.
English
This report introduces FunAudioLLM, a model family designed to enhance
natural voice interactions between humans and large language models (LLMs). At
its core are two innovative models: SenseVoice, which handles multilingual
speech recognition, emotion recognition, and audio event detection; and
CosyVoice, which facilitates natural speech generation with control over
multiple languages, timbre, speaking style, and speaker identity.
SenseVoice-Small delivers exceptionally low-latency ASR for 5 languages, and
SenseVoice-Large supports high-precision ASR for over 50 languages, while
CosyVoice excels in multi-lingual voice generation, zero-shot in-context
learning, cross-lingual voice cloning, and instruction-following capabilities.
The models related to SenseVoice and CosyVoice have been open-sourced on
Modelscope and Huggingface, along with the corresponding training, inference,
and fine-tuning codes released on GitHub. By integrating these models with
LLMs, FunAudioLLM enables applications such as speech-to-speech translation,
emotional voice chat, interactive podcasts, and expressive audiobook narration,
thereby pushing the boundaries of voice interaction technology. Demos are
available at https://fun-audio-llm.github.io, and the code can be accessed at
https://github.com/FunAudioLLM.