Relatório Técnico do Kimi-Audio
Kimi-Audio Technical Report
April 25, 2025
Autores: KimiTeam, Ding Ding, Zeqian Ju, Yichong Leng, Songxiang Liu, Tong Liu, Zeyu Shang, Kai Shen, Wei Song, Xu Tan, Heyi Tang, Zhengtao Wang, Chu Wei, Yifei Xin, Xinran Xu, Jianwei Yu, Yutao Zhang, Xinyu Zhou, Y. Charles, Jun Chen, Yanru Chen, Yulun Du, Weiran He, Zhenxing Hu, Guokun Lai, Qingcheng Li, Yangyang Liu, Weidong Sun, Jianzhou Wang, Yuzhi Wang, Yuefeng Wu, Yuxin Wu, Dongchao Yang, Hao Yang, Ying Yang, Zhilin Yang, Aoxiong Yin, Ruibin Yuan, Yutong Zhang, Zaida Zhou
cs.AI
Resumo
Apresentamos o Kimi-Audio, um modelo de base de áudio de código aberto que se destaca na compreensão, geração e conversação de áudio. Detalhamos as práticas na construção do Kimi-Audio, incluindo arquitetura do modelo, curadoria de dados, receita de treinamento, implantação de inferência e avaliação. Especificamente, utilizamos um tokenizador de áudio de 12,5 Hz, projetamos uma nova arquitetura baseada em LLM com características contínuas como entrada e tokens discretos como saída, e desenvolvemos um detokenizador de streaming em blocos baseado em correspondência de fluxo. Curamos um conjunto de dados de pré-treinamento que consiste em mais de 13 milhões de horas de dados de áudio, abrangendo uma ampla gama de modalidades, incluindo fala, som e música, e construímos um pipeline para criar dados pós-treinamento de alta qualidade e diversificados. Inicializado a partir de um LLM pré-treinado, o Kimi-Audio é continuamente pré-treinado em dados de áudio e texto com várias tarefas cuidadosamente projetadas, e então ajustado para suportar uma variedade de tarefas relacionadas a áudio. Avaliações extensivas mostram que o Kimi-Audio alcança desempenho de ponta em uma série de benchmarks de áudio, incluindo reconhecimento de fala, compreensão de áudio, resposta a perguntas de áudio e conversação de fala. Disponibilizamos os códigos, checkpoints do modelo, bem como os kits de ferramentas de avaliação em https://github.com/MoonshotAI/Kimi-Audio.
English
We present Kimi-Audio, an open-source audio foundation model that excels in
audio understanding, generation, and conversation. We detail the practices in
building Kimi-Audio, including model architecture, data curation, training
recipe, inference deployment, and evaluation. Specifically, we leverage a
12.5Hz audio tokenizer, design a novel LLM-based architecture with continuous
features as input and discrete tokens as output, and develop a chunk-wise
streaming detokenizer based on flow matching. We curate a pre-training dataset
that consists of more than 13 million hours of audio data covering a wide range
of modalities including speech, sound, and music, and build a pipeline to
construct high-quality and diverse post-training data. Initialized from a
pre-trained LLM, Kimi-Audio is continual pre-trained on both audio and text
data with several carefully designed tasks, and then fine-tuned to support a
diverse of audio-related tasks. Extensive evaluation shows that Kimi-Audio
achieves state-of-the-art performance on a range of audio benchmarks including
speech recognition, audio understanding, audio question answering, and speech
conversation. We release the codes, model checkpoints, as well as the
evaluation toolkits in https://github.com/MoonshotAI/Kimi-Audio.Summary
AI-Generated Summary