FunAudioLLM : Modèles Fondamentaux de Compréhension et de Génération Vocale pour une Interaction Naturelle entre les Humains et les LLM
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs
July 4, 2024
Auteurs: Tongyi SpeechTeam
cs.AI
Résumé
Ce rapport présente FunAudioLLM, une famille de modèles conçue pour améliorer les interactions vocales naturelles entre les humains et les grands modèles de langage (LLM). Au cœur de cette famille se trouvent deux modèles innovants : SenseVoice, qui gère la reconnaissance vocale multilingue, la reconnaissance des émotions et la détection d'événements audio ; et CosyVoice, qui facilite la génération de parole naturelle avec un contrôle sur plusieurs langues, le timbre, le style de parole et l'identité du locuteur. SenseVoice-Small offre une reconnaissance vocale automatique (ASR) à très faible latence pour 5 langues, tandis que SenseVoice-Large prend en charge une ASR de haute précision pour plus de 50 langues. CosyVoice excelle dans la génération vocale multilingue, l'apprentissage contextuel zero-shot, le clonage vocal translingue et les capacités de suivi d'instructions. Les modèles liés à SenseVoice et CosyVoice ont été open-sourcés sur Modelscope et Huggingface, avec les codes correspondants pour l'entraînement, l'inférence et le fine-tuning publiés sur GitHub. En intégrant ces modèles avec des LLM, FunAudioLLM permet des applications telles que la traduction parole-à-parole, les conversations vocales émotionnelles, les podcasts interactifs et la narration expressive de livres audio, repoussant ainsi les limites de la technologie d'interaction vocale. Des démonstrations sont disponibles sur https://fun-audio-llm.github.io, et le code est accessible sur https://github.com/FunAudioLLM.
English
This report introduces FunAudioLLM, a model family designed to enhance
natural voice interactions between humans and large language models (LLMs). At
its core are two innovative models: SenseVoice, which handles multilingual
speech recognition, emotion recognition, and audio event detection; and
CosyVoice, which facilitates natural speech generation with control over
multiple languages, timbre, speaking style, and speaker identity.
SenseVoice-Small delivers exceptionally low-latency ASR for 5 languages, and
SenseVoice-Large supports high-precision ASR for over 50 languages, while
CosyVoice excels in multi-lingual voice generation, zero-shot in-context
learning, cross-lingual voice cloning, and instruction-following capabilities.
The models related to SenseVoice and CosyVoice have been open-sourced on
Modelscope and Huggingface, along with the corresponding training, inference,
and fine-tuning codes released on GitHub. By integrating these models with
LLMs, FunAudioLLM enables applications such as speech-to-speech translation,
emotional voice chat, interactive podcasts, and expressive audiobook narration,
thereby pushing the boundaries of voice interaction technology. Demos are
available at https://fun-audio-llm.github.io, and the code can be accessed at
https://github.com/FunAudioLLM.Summary
AI-Generated Summary