Kimi k1.5 : Mise à l'échelle de l'apprentissage par renforcement avec les LLM

papers.abstract

Le pré-entraînement des modèles de langage avec la prédiction du jeton suivant s'est avéré efficace pour augmenter la puissance de calcul, mais est limité par la quantité de données d'entraînement disponibles. Le passage à l'échelle de l'apprentissage par renforcement (RL) ouvre une nouvelle dimension pour l'amélioration continue de l'intelligence artificielle, avec la promesse que les grands modèles de langage (LLM) peuvent augmenter la quantité de leurs données d'entraînement en apprenant à explorer avec des récompenses. Cependant, les travaux publiés précédemment n'ont pas donné des résultats compétitifs. Dans ce contexte, nous présentons la pratique d'entraînement de Kimi k1.5, notre dernier LLM multimodal entraîné avec RL, y compris ses techniques d'entraînement RL, ses recettes de données multimodales et son optimisation de l'infrastructure. Le passage à l'échelle du contexte long et l'amélioration des méthodes d'optimisation des politiques sont des éléments clés de notre approche, qui établit un cadre RL simple et efficace sans recourir à des techniques plus complexes telles que la recherche arborescente Monte Carlo, les fonctions de valeur et les modèles de récompense de processus. Notamment, notre système atteint des performances de raisonnement de pointe sur plusieurs référentiels et modalités - par exemple, 77,5 sur AIME, 96,2 sur MATH 500, 94e percentile sur Codeforces, 74,9 sur MathVista - correspondant à l'approche o1 d'OpenAI. De plus, nous présentons des méthodes efficaces long2short qui utilisent des techniques long-CoT pour améliorer les modèles short-CoT, produisant des résultats de raisonnement short-CoT de pointe - par exemple, 60,8 sur AIME, 94,6 sur MATH500, 47,3 sur LiveCodeBench - surpassant largement les modèles short-CoT existants tels que GPT-4o et Claude Sonnet 3.5 de manière significative (jusqu'à +550%).

English

Language model pretraining with next token prediction has proved effective for scaling compute but is limited to the amount of available training data. Scaling reinforcement learning (RL) unlocks a new axis for the continued improvement of artificial intelligence, with the promise that large language models (LLMs) can scale their training data by learning to explore with rewards. However, prior published work has not produced competitive results. In light of this, we report on the training practice of Kimi k1.5, our latest multi-modal LLM trained with RL, including its RL training techniques, multi-modal data recipes, and infrastructure optimization. Long context scaling and improved policy optimization methods are key ingredients of our approach, which establishes a simplistic, effective RL framework without relying on more complex techniques such as Monte Carlo tree search, value functions, and process reward models. Notably, our system achieves state-of-the-art reasoning performance across multiple benchmarks and modalities -- e.g., 77.5 on AIME, 96.2 on MATH 500, 94-th percentile on Codeforces, 74.9 on MathVista -- matching OpenAI's o1. Moreover, we present effective long2short methods that use long-CoT techniques to improve short-CoT models, yielding state-of-the-art short-CoT reasoning results -- e.g., 60.8 on AIME, 94.6 on MATH500, 47.3 on LiveCodeBench -- outperforming existing short-CoT models such as GPT-4o and Claude Sonnet 3.5 by a large margin (up to +550%).

Kimi k1.5 : Mise à l'échelle de l'apprentissage par renforcement avec les LLM

Kimi k1.5: Scaling Reinforcement Learning with LLMs

papers.abstract

Support