Kimi k1.5: Масштабирование обучения с подкреплением с помощью LLMs

Аннотация

Предварительное обучение языковой модели с предсказанием следующего токена доказало свою эффективность для масштабирования вычислений, но ограничено объемом доступных обучающих данных. Увеличение масштаба обучения с подкреплением (RL) открывает новую ось для постоянного улучшения искусственного интеллекта, с обещанием того, что большие языковые модели (LLM) могут увеличить объем своих обучающих данных, изучая исследование с помощью вознаграждений. Однако ранее опубликованные работы не привели к конкурентоспособным результатам. В свете этого мы сообщаем о практике обучения Kimi k1.5, нашей последней мультимодальной LLM, обученной с помощью RL, включая ее техники обучения RL, рецепты мультимодальных данных и оптимизацию инфраструктуры. Увеличение длины контекста и улучшенные методы оптимизации политики являются ключевыми элементами нашего подхода, который устанавливает простую, эффективную структуру RL без использования более сложных техник, таких как поиск по дереву методом Монте-Карло, функции ценности и модели вознаграждения процесса. Заметно, что наша система достигает передовой производительности в рассуждениях по нескольким показателям и модальностям - например, 77,5 на AIME, 96,2 на MATH 500, 94-й процентиль на Codeforces, 74,9 на MathVista - соответствуя OpenAI's o1. Более того, мы представляем эффективные методы long2short, которые используют техники long-CoT для улучшения моделей short-CoT, давая передовые результаты в рассуждениях short-CoT - например, 60,8 на AIME, 94,6 на MATH500, 47,3 на LiveCodeBench - превосходящие существующие модели short-CoT, такие как GPT-4o и Claude Sonnet 3.5 на значительный процент (до +550%).

English

Language model pretraining with next token prediction has proved effective for scaling compute but is limited to the amount of available training data. Scaling reinforcement learning (RL) unlocks a new axis for the continued improvement of artificial intelligence, with the promise that large language models (LLMs) can scale their training data by learning to explore with rewards. However, prior published work has not produced competitive results. In light of this, we report on the training practice of Kimi k1.5, our latest multi-modal LLM trained with RL, including its RL training techniques, multi-modal data recipes, and infrastructure optimization. Long context scaling and improved policy optimization methods are key ingredients of our approach, which establishes a simplistic, effective RL framework without relying on more complex techniques such as Monte Carlo tree search, value functions, and process reward models. Notably, our system achieves state-of-the-art reasoning performance across multiple benchmarks and modalities -- e.g., 77.5 on AIME, 96.2 on MATH 500, 94-th percentile on Codeforces, 74.9 on MathVista -- matching OpenAI's o1. Moreover, we present effective long2short methods that use long-CoT techniques to improve short-CoT models, yielding state-of-the-art short-CoT reasoning results -- e.g., 60.8 on AIME, 94.6 on MATH500, 47.3 on LiveCodeBench -- outperforming existing short-CoT models such as GPT-4o and Claude Sonnet 3.5 by a large margin (up to +550%).

Kimi k1.5: Масштабирование обучения с подкреплением с помощью LLMs

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Аннотация

Support