FunAudioLLM: Модели основы понимания и генерации голоса для естественного взаимодействия между людьми и LLMs
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs
July 4, 2024
Авторы: Tongyi SpeechTeam
cs.AI
Аннотация
Данный отчет представляет FunAudioLLM, семейство моделей, разработанных для улучшения естественного голосового взаимодействия между людьми и большими языковыми моделями (LLM). В его основе находятся две инновационные модели: SenseVoice, которая обрабатывает многоязычное распознавание речи, распознавание эмоций и обнаружение аудио-событий; и CosyVoice, которая облегчает естественную генерацию речи с управлением на нескольких языках, тембре, стиле речи и идентификации диктора. SenseVoice-Small обеспечивает исключительно низкую задержку ASR для 5 языков, а SenseVoice-Large поддерживает высокоточное ASR для более чем 50 языков, в то время как CosyVoice отличается многоязычной генерацией голоса, обучением в контексте без обучающих данных, кросс-языковым клонированием голоса и способностью следовать инструкциям. Модели, связанные с SenseVoice и CosyVoice, были опубликованы в открытом доступе на Modelscope и Huggingface, вместе с соответствующими кодами для обучения, вывода и донастройки, опубликованными на GitHub. Интегрируя эти модели с LLM, FunAudioLLM позволяет создавать приложения, такие как речевой перевод, эмоциональный голосовой чат, интерактивные подкасты и выразительное аудио озвучивание книг, тем самым расширяя границы технологии голосового взаимодействия. Демонстрации доступны на https://fun-audio-llm.github.io, и код можно получить на https://github.com/FunAudioLLM.
English
This report introduces FunAudioLLM, a model family designed to enhance
natural voice interactions between humans and large language models (LLMs). At
its core are two innovative models: SenseVoice, which handles multilingual
speech recognition, emotion recognition, and audio event detection; and
CosyVoice, which facilitates natural speech generation with control over
multiple languages, timbre, speaking style, and speaker identity.
SenseVoice-Small delivers exceptionally low-latency ASR for 5 languages, and
SenseVoice-Large supports high-precision ASR for over 50 languages, while
CosyVoice excels in multi-lingual voice generation, zero-shot in-context
learning, cross-lingual voice cloning, and instruction-following capabilities.
The models related to SenseVoice and CosyVoice have been open-sourced on
Modelscope and Huggingface, along with the corresponding training, inference,
and fine-tuning codes released on GitHub. By integrating these models with
LLMs, FunAudioLLM enables applications such as speech-to-speech translation,
emotional voice chat, interactive podcasts, and expressive audiobook narration,
thereby pushing the boundaries of voice interaction technology. Demos are
available at https://fun-audio-llm.github.io, and the code can be accessed at
https://github.com/FunAudioLLM.Summary
AI-Generated Summary