Технический отчет Kimi-Audio

Аннотация

Мы представляем Kimi-Audio, открытую аудио-модель, которая демонстрирует выдающиеся результаты в понимании, генерации и ведении диалогов на основе аудио. Мы подробно описываем подходы, использованные при создании Kimi-Audio, включая архитектуру модели, подготовку данных, рецепт обучения, развертывание для вывода и оценку. В частности, мы используем аудио-токенизатор с частотой 12,5 Гц, разрабатываем новую архитектуру на основе языковой модели (LLM), которая принимает на вход непрерывные признаки и выдает дискретные токены, а также создаем потоковый детокенизатор на основе chunk-wise подхода с использованием метода flow matching. Мы подготовили предобучающий набор данных, содержащий более 13 миллионов часов аудио, охватывающего широкий спектр модальностей, включая речь, звуки и музыку, и разработали конвейер для создания высококачественных и разнообразных данных для пост-обучения. Инициализированная на основе предобученной LLM, Kimi-Audio проходит дополнительное предобучение на аудио и текстовых данных с использованием нескольких тщательно разработанных задач, а затем дообучается для поддержки широкого спектра аудио-задач. Обширная оценка показывает, что Kimi-Audio достигает передовых результатов на ряде аудио-бенчмарков, включая распознавание речи, понимание аудио, ответы на вопросы по аудио и речевые диалоги. Мы публикуем исходный код, контрольные точки модели, а также инструменты для оценки на https://github.com/MoonshotAI/Kimi-Audio.

English

We present Kimi-Audio, an open-source audio foundation model that excels in audio understanding, generation, and conversation. We detail the practices in building Kimi-Audio, including model architecture, data curation, training recipe, inference deployment, and evaluation. Specifically, we leverage a 12.5Hz audio tokenizer, design a novel LLM-based architecture with continuous features as input and discrete tokens as output, and develop a chunk-wise streaming detokenizer based on flow matching. We curate a pre-training dataset that consists of more than 13 million hours of audio data covering a wide range of modalities including speech, sound, and music, and build a pipeline to construct high-quality and diverse post-training data. Initialized from a pre-trained LLM, Kimi-Audio is continual pre-trained on both audio and text data with several carefully designed tasks, and then fine-tuned to support a diverse of audio-related tasks. Extensive evaluation shows that Kimi-Audio achieves state-of-the-art performance on a range of audio benchmarks including speech recognition, audio understanding, audio question answering, and speech conversation. We release the codes, model checkpoints, as well as the evaluation toolkits in https://github.com/MoonshotAI/Kimi-Audio.

Технический отчет Kimi-Audio

Kimi-Audio Technical Report

Аннотация

Support