Kimi k1.5 : Mise à l'échelle de l'apprentissage par renforcement avec les LLM
Kimi k1.5: Scaling Reinforcement Learning with LLMs
January 22, 2025
Auteurs: Kimi Team, Angang Du, Bofei Gao, Bowei Xing, Changjiu Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chonghua Liao, Chuning Tang, Congcong Wang, Dehao Zhang, Enming Yuan, Enzhe Lu, Fengxiang Tang, Flood Sung, Guangda Wei, Guokun Lai, Haiqing Guo, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haotian Yao, Haotian Zhao, Haoyu Lu, Haoze Li, Haozhen Yu, Hongcheng Gao, Huabin Zheng, Huan Yuan, Jia Chen, Jianhang Guo, Jianlin Su, Jianzhou Wang, Jie Zhao, Jin Zhang, Jingyuan Liu, Junjie Yan, Junyan Wu, Lidong Shi, Ling Ye, Longhui Yu, Mengnan Dong, Neo Zhang, Ningchen Ma, Qiwei Pan, Qucheng Gong, Shaowei Liu, Shengling Ma, Shupeng Wei, Sihan Cao, Siying Huang, Tao Jiang, Weihao Gao, Weimin Xiong, Weiran He, Weixiao Huang, Wenhao Wu, Wenyang He, Xianghui Wei, Xianqing Jia, Xingzhe Wu, Xinran Xu, Xinxing Zu, Xinyu Zhou, Xuehai Pan, Y. Charles, Yang Li, Yangyang Hu, Yangyang Liu, Yanru Chen, Yejie Wang, Yibo Liu, Yidao Qin, Yifeng Liu, Ying Yang, Yiping Bao, Yulun Du, Yuxin Wu, Yuzhi Wang, Zaida Zhou, Zhaoji Wang, Zhaowei Li, Zhen Zhu, Zheng Zhang, Zhexu Wang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Ziyao Xu, Zonghan Yang
cs.AI
Résumé
Le pré-entraînement des modèles de langage avec la prédiction du jeton suivant s'est avéré efficace pour augmenter la puissance de calcul, mais est limité par la quantité de données d'entraînement disponibles. Le passage à l'échelle de l'apprentissage par renforcement (RL) ouvre une nouvelle dimension pour l'amélioration continue de l'intelligence artificielle, avec la promesse que les grands modèles de langage (LLM) peuvent augmenter la quantité de leurs données d'entraînement en apprenant à explorer avec des récompenses. Cependant, les travaux publiés précédemment n'ont pas donné des résultats compétitifs. Dans ce contexte, nous présentons la pratique d'entraînement de Kimi k1.5, notre dernier LLM multimodal entraîné avec RL, y compris ses techniques d'entraînement RL, ses recettes de données multimodales et son optimisation de l'infrastructure. Le passage à l'échelle du contexte long et l'amélioration des méthodes d'optimisation des politiques sont des éléments clés de notre approche, qui établit un cadre RL simple et efficace sans recourir à des techniques plus complexes telles que la recherche arborescente Monte Carlo, les fonctions de valeur et les modèles de récompense de processus. Notamment, notre système atteint des performances de raisonnement de pointe sur plusieurs référentiels et modalités - par exemple, 77,5 sur AIME, 96,2 sur MATH 500, 94e percentile sur Codeforces, 74,9 sur MathVista - correspondant à l'approche o1 d'OpenAI. De plus, nous présentons des méthodes efficaces long2short qui utilisent des techniques long-CoT pour améliorer les modèles short-CoT, produisant des résultats de raisonnement short-CoT de pointe - par exemple, 60,8 sur AIME, 94,6 sur MATH500, 47,3 sur LiveCodeBench - surpassant largement les modèles short-CoT existants tels que GPT-4o et Claude Sonnet 3.5 de manière significative (jusqu'à +550%).
English
Language model pretraining with next token prediction has proved effective
for scaling compute but is limited to the amount of available training data.
Scaling reinforcement learning (RL) unlocks a new axis for the continued
improvement of artificial intelligence, with the promise that large language
models (LLMs) can scale their training data by learning to explore with
rewards. However, prior published work has not produced competitive results. In
light of this, we report on the training practice of Kimi k1.5, our latest
multi-modal LLM trained with RL, including its RL training techniques,
multi-modal data recipes, and infrastructure optimization. Long context scaling
and improved policy optimization methods are key ingredients of our approach,
which establishes a simplistic, effective RL framework without relying on more
complex techniques such as Monte Carlo tree search, value functions, and
process reward models. Notably, our system achieves state-of-the-art reasoning
performance across multiple benchmarks and modalities -- e.g., 77.5 on AIME,
96.2 on MATH 500, 94-th percentile on Codeforces, 74.9 on MathVista -- matching
OpenAI's o1. Moreover, we present effective long2short methods that use
long-CoT techniques to improve short-CoT models, yielding state-of-the-art
short-CoT reasoning results -- e.g., 60.8 on AIME, 94.6 on MATH500, 47.3 on
LiveCodeBench -- outperforming existing short-CoT models such as GPT-4o and
Claude Sonnet 3.5 by a large margin (up to +550%).Summary
AI-Generated Summary