Технический отчет Kimi-Audio
Kimi-Audio Technical Report
April 25, 2025
Авторы: KimiTeam, Ding Ding, Zeqian Ju, Yichong Leng, Songxiang Liu, Tong Liu, Zeyu Shang, Kai Shen, Wei Song, Xu Tan, Heyi Tang, Zhengtao Wang, Chu Wei, Yifei Xin, Xinran Xu, Jianwei Yu, Yutao Zhang, Xinyu Zhou, Y. Charles, Jun Chen, Yanru Chen, Yulun Du, Weiran He, Zhenxing Hu, Guokun Lai, Qingcheng Li, Yangyang Liu, Weidong Sun, Jianzhou Wang, Yuzhi Wang, Yuefeng Wu, Yuxin Wu, Dongchao Yang, Hao Yang, Ying Yang, Zhilin Yang, Aoxiong Yin, Ruibin Yuan, Yutong Zhang, Zaida Zhou
cs.AI
Аннотация
Мы представляем Kimi-Audio, открытую аудио-модель, которая демонстрирует выдающиеся результаты в понимании, генерации и ведении диалогов на основе аудио. Мы подробно описываем подходы, использованные при создании Kimi-Audio, включая архитектуру модели, подготовку данных, рецепт обучения, развертывание для вывода и оценку. В частности, мы используем аудио-токенизатор с частотой 12,5 Гц, разрабатываем новую архитектуру на основе языковой модели (LLM), которая принимает на вход непрерывные признаки и выдает дискретные токены, а также создаем потоковый детокенизатор на основе chunk-wise подхода с использованием метода flow matching. Мы подготовили предобучающий набор данных, содержащий более 13 миллионов часов аудио, охватывающего широкий спектр модальностей, включая речь, звуки и музыку, и разработали конвейер для создания высококачественных и разнообразных данных для пост-обучения. Инициализированная на основе предобученной LLM, Kimi-Audio проходит дополнительное предобучение на аудио и текстовых данных с использованием нескольких тщательно разработанных задач, а затем дообучается для поддержки широкого спектра аудио-задач. Обширная оценка показывает, что Kimi-Audio достигает передовых результатов на ряде аудио-бенчмарков, включая распознавание речи, понимание аудио, ответы на вопросы по аудио и речевые диалоги. Мы публикуем исходный код, контрольные точки модели, а также инструменты для оценки на https://github.com/MoonshotAI/Kimi-Audio.
English
We present Kimi-Audio, an open-source audio foundation model that excels in
audio understanding, generation, and conversation. We detail the practices in
building Kimi-Audio, including model architecture, data curation, training
recipe, inference deployment, and evaluation. Specifically, we leverage a
12.5Hz audio tokenizer, design a novel LLM-based architecture with continuous
features as input and discrete tokens as output, and develop a chunk-wise
streaming detokenizer based on flow matching. We curate a pre-training dataset
that consists of more than 13 million hours of audio data covering a wide range
of modalities including speech, sound, and music, and build a pipeline to
construct high-quality and diverse post-training data. Initialized from a
pre-trained LLM, Kimi-Audio is continual pre-trained on both audio and text
data with several carefully designed tasks, and then fine-tuned to support a
diverse of audio-related tasks. Extensive evaluation shows that Kimi-Audio
achieves state-of-the-art performance on a range of audio benchmarks including
speech recognition, audio understanding, audio question answering, and speech
conversation. We release the codes, model checkpoints, as well as the
evaluation toolkits in https://github.com/MoonshotAI/Kimi-Audio.Summary
AI-Generated Summary