FunAudioLLM : Modèles Fondamentaux de Compréhension et de Génération Vocale pour une Interaction Naturelle entre les Humains et les LLM

papers.abstract

Ce rapport présente FunAudioLLM, une famille de modèles conçue pour améliorer les interactions vocales naturelles entre les humains et les grands modèles de langage (LLM). Au cœur de cette famille se trouvent deux modèles innovants : SenseVoice, qui gère la reconnaissance vocale multilingue, la reconnaissance des émotions et la détection d'événements audio ; et CosyVoice, qui facilite la génération de parole naturelle avec un contrôle sur plusieurs langues, le timbre, le style de parole et l'identité du locuteur. SenseVoice-Small offre une reconnaissance vocale automatique (ASR) à très faible latence pour 5 langues, tandis que SenseVoice-Large prend en charge une ASR de haute précision pour plus de 50 langues. CosyVoice excelle dans la génération vocale multilingue, l'apprentissage contextuel zero-shot, le clonage vocal translingue et les capacités de suivi d'instructions. Les modèles liés à SenseVoice et CosyVoice ont été open-sourcés sur Modelscope et Huggingface, avec les codes correspondants pour l'entraînement, l'inférence et le fine-tuning publiés sur GitHub. En intégrant ces modèles avec des LLM, FunAudioLLM permet des applications telles que la traduction parole-à-parole, les conversations vocales émotionnelles, les podcasts interactifs et la narration expressive de livres audio, repoussant ainsi les limites de la technologie d'interaction vocale. Des démonstrations sont disponibles sur https://fun-audio-llm.github.io, et le code est accessible sur https://github.com/FunAudioLLM.

English

This report introduces FunAudioLLM, a model family designed to enhance natural voice interactions between humans and large language models (LLMs). At its core are two innovative models: SenseVoice, which handles multilingual speech recognition, emotion recognition, and audio event detection; and CosyVoice, which facilitates natural speech generation with control over multiple languages, timbre, speaking style, and speaker identity. SenseVoice-Small delivers exceptionally low-latency ASR for 5 languages, and SenseVoice-Large supports high-precision ASR for over 50 languages, while CosyVoice excels in multi-lingual voice generation, zero-shot in-context learning, cross-lingual voice cloning, and instruction-following capabilities. The models related to SenseVoice and CosyVoice have been open-sourced on Modelscope and Huggingface, along with the corresponding training, inference, and fine-tuning codes released on GitHub. By integrating these models with LLMs, FunAudioLLM enables applications such as speech-to-speech translation, emotional voice chat, interactive podcasts, and expressive audiobook narration, thereby pushing the boundaries of voice interaction technology. Demos are available at https://fun-audio-llm.github.io, and the code can be accessed at https://github.com/FunAudioLLM.

FunAudioLLM : Modèles Fondamentaux de Compréhension et de Génération Vocale pour une Interaction Naturelle entre les Humains et les LLM

FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs

papers.abstract

Support