ChatPaper.aiChatPaper

Informe Técnico de Kimi-Audio

Kimi-Audio Technical Report

April 25, 2025
Autores: KimiTeam, Ding Ding, Zeqian Ju, Yichong Leng, Songxiang Liu, Tong Liu, Zeyu Shang, Kai Shen, Wei Song, Xu Tan, Heyi Tang, Zhengtao Wang, Chu Wei, Yifei Xin, Xinran Xu, Jianwei Yu, Yutao Zhang, Xinyu Zhou, Y. Charles, Jun Chen, Yanru Chen, Yulun Du, Weiran He, Zhenxing Hu, Guokun Lai, Qingcheng Li, Yangyang Liu, Weidong Sun, Jianzhou Wang, Yuzhi Wang, Yuefeng Wu, Yuxin Wu, Dongchao Yang, Hao Yang, Ying Yang, Zhilin Yang, Aoxiong Yin, Ruibin Yuan, Yutong Zhang, Zaida Zhou
cs.AI

Resumen

Presentamos Kimi-Audio, un modelo de base de audio de código abierto que sobresale en comprensión, generación y conversación de audio. Detallamos las prácticas empleadas en la construcción de Kimi-Audio, incluyendo la arquitectura del modelo, la curación de datos, la receta de entrenamiento, el despliegue de inferencia y la evaluación. Específicamente, utilizamos un tokenizador de audio de 12.5 Hz, diseñamos una novedosa arquitectura basada en LLM con características continuas como entrada y tokens discretos como salida, y desarrollamos un detokenizador de transmisión por fragmentos basado en emparejamiento de flujo. Curación de un conjunto de datos de preentrenamiento que consta de más de 13 millones de horas de datos de audio que cubren una amplia gama de modalidades, incluyendo habla, sonido y música, y construimos una canalización para crear datos de post-entrenamiento de alta calidad y diversidad. Inicializado a partir de un LLM preentrenado, Kimi-Audio se somete a un preentrenamiento continuo tanto en datos de audio como de texto con varias tareas cuidadosamente diseñadas, y luego se ajusta para soportar una variedad de tareas relacionadas con el audio. Una evaluación extensa muestra que Kimi-Audio alcanza un rendimiento de vanguardia en una serie de benchmarks de audio, incluyendo reconocimiento de voz, comprensión de audio, respuesta a preguntas de audio y conversación de voz. Publicamos los códigos, los puntos de control del modelo, así como las herramientas de evaluación en https://github.com/MoonshotAI/Kimi-Audio.
English
We present Kimi-Audio, an open-source audio foundation model that excels in audio understanding, generation, and conversation. We detail the practices in building Kimi-Audio, including model architecture, data curation, training recipe, inference deployment, and evaluation. Specifically, we leverage a 12.5Hz audio tokenizer, design a novel LLM-based architecture with continuous features as input and discrete tokens as output, and develop a chunk-wise streaming detokenizer based on flow matching. We curate a pre-training dataset that consists of more than 13 million hours of audio data covering a wide range of modalities including speech, sound, and music, and build a pipeline to construct high-quality and diverse post-training data. Initialized from a pre-trained LLM, Kimi-Audio is continual pre-trained on both audio and text data with several carefully designed tasks, and then fine-tuned to support a diverse of audio-related tasks. Extensive evaluation shows that Kimi-Audio achieves state-of-the-art performance on a range of audio benchmarks including speech recognition, audio understanding, audio question answering, and speech conversation. We release the codes, model checkpoints, as well as the evaluation toolkits in https://github.com/MoonshotAI/Kimi-Audio.

Summary

AI-Generated Summary

PDF132April 28, 2025