FunAudioLLM: Grundlagenmodelle für die Sprachverarbeitung und -erzeugung zur natürlichen Interaktion zwischen Menschen und LLMs
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs
July 4, 2024
Autoren: Tongyi SpeechTeam
cs.AI
Zusammenfassung
Dieser Bericht stellt FunAudioLLM vor, eine Modellfamilie, die entwickelt wurde, um natürliche Sprachinteraktionen zwischen Menschen und großen Sprachmodellen (LLMs) zu verbessern. Im Kern stehen zwei innovative Modelle: SenseVoice, das mehrsprachige Spracherkennung, Emotionserkennung und Audio-Event-Erkennung behandelt; und CosyVoice, das natürliche Spracherzeugung mit Kontrolle über mehrere Sprachen, Klangfarbe, Sprechstil und Sprecheridentität ermöglicht. SenseVoice-Small bietet eine außergewöhnlich geringe Latenz für ASR in 5 Sprachen, und SenseVoice-Large unterstützt hochpräzise ASR für über 50 Sprachen, während CosyVoice in mehrsprachiger Spracherzeugung, Zero-Shot-In-Context-Lernen, cross-lingualem Voice-Cloning und Anweisungsfolge-Fähigkeiten herausragt. Die Modelle im Zusammenhang mit SenseVoice und CosyVoice wurden auf Modelscope und Huggingface Open Source gemacht, zusammen mit den entsprechenden Schulungs-, Inferenz- und Feinabstimmungscodes, die auf GitHub veröffentlicht wurden. Durch die Integration dieser Modelle mit LLMs ermöglicht FunAudioLLM Anwendungen wie Sprach-zu-Sprach-Übersetzung, emotionale Sprachchats, interaktive Podcasts und expressive Hörbuchnarration, wodurch die Grenzen der Sprachinteraktionstechnologie erweitert werden. Demos sind verfügbar unter https://fun-audio-llm.github.io, und der Code kann unter https://github.com/FunAudioLLM abgerufen werden.
English
This report introduces FunAudioLLM, a model family designed to enhance
natural voice interactions between humans and large language models (LLMs). At
its core are two innovative models: SenseVoice, which handles multilingual
speech recognition, emotion recognition, and audio event detection; and
CosyVoice, which facilitates natural speech generation with control over
multiple languages, timbre, speaking style, and speaker identity.
SenseVoice-Small delivers exceptionally low-latency ASR for 5 languages, and
SenseVoice-Large supports high-precision ASR for over 50 languages, while
CosyVoice excels in multi-lingual voice generation, zero-shot in-context
learning, cross-lingual voice cloning, and instruction-following capabilities.
The models related to SenseVoice and CosyVoice have been open-sourced on
Modelscope and Huggingface, along with the corresponding training, inference,
and fine-tuning codes released on GitHub. By integrating these models with
LLMs, FunAudioLLM enables applications such as speech-to-speech translation,
emotional voice chat, interactive podcasts, and expressive audiobook narration,
thereby pushing the boundaries of voice interaction technology. Demos are
available at https://fun-audio-llm.github.io, and the code can be accessed at
https://github.com/FunAudioLLM.Summary
AI-Generated Summary