Kimi k1.5: Escalando el Aprendizaje por Refuerzo con LLMs

Resumen

El preentrenamiento del modelo de lenguaje con predicción del siguiente token ha demostrado ser efectivo para escalar el cálculo, pero está limitado por la cantidad de datos de entrenamiento disponibles. La escalabilidad del aprendizaje por refuerzo (RL) desbloquea un nuevo eje para la mejora continua de la inteligencia artificial, con la promesa de que los grandes modelos de lenguaje (LLMs) pueden ampliar sus datos de entrenamiento aprendiendo a explorar con recompensas. Sin embargo, trabajos previamente publicados no han producido resultados competitivos. En vista de esto, informamos sobre la práctica de entrenamiento de Kimi k1.5, nuestro último LLM multimodal entrenado con RL, incluyendo sus técnicas de entrenamiento de RL, recetas de datos multimodales y optimización de infraestructura. La ampliación del contexto largo y los métodos mejorados de optimización de políticas son ingredientes clave de nuestro enfoque, que establece un marco de RL simplista y efectivo sin depender de técnicas más complejas como la búsqueda de árboles de Monte Carlo, funciones de valor y modelos de recompensa de proceso. Notablemente, nuestro sistema logra un rendimiento de razonamiento de vanguardia en múltiples benchmarks y modalidades, por ejemplo, 77.5 en AIME, 96.2 en MATH 500, percentil 94 en Codeforces, 74.9 en MathVista, igualando al o1 de OpenAI. Además, presentamos métodos efectivos de largo a corto que utilizan técnicas de largo-CoT para mejorar modelos de corto-CoT, produciendo resultados de razonamiento de corto-CoT de vanguardia, por ejemplo, 60.8 en AIME, 94.6 en MATH500, 47.3 en LiveCodeBench, superando a modelos de corto-CoT existentes como GPT-4o y Claude Sonnet 3.5 por un amplio margen (hasta +550%).

English

Language model pretraining with next token prediction has proved effective for scaling compute but is limited to the amount of available training data. Scaling reinforcement learning (RL) unlocks a new axis for the continued improvement of artificial intelligence, with the promise that large language models (LLMs) can scale their training data by learning to explore with rewards. However, prior published work has not produced competitive results. In light of this, we report on the training practice of Kimi k1.5, our latest multi-modal LLM trained with RL, including its RL training techniques, multi-modal data recipes, and infrastructure optimization. Long context scaling and improved policy optimization methods are key ingredients of our approach, which establishes a simplistic, effective RL framework without relying on more complex techniques such as Monte Carlo tree search, value functions, and process reward models. Notably, our system achieves state-of-the-art reasoning performance across multiple benchmarks and modalities -- e.g., 77.5 on AIME, 96.2 on MATH 500, 94-th percentile on Codeforces, 74.9 on MathVista -- matching OpenAI's o1. Moreover, we present effective long2short methods that use long-CoT techniques to improve short-CoT models, yielding state-of-the-art short-CoT reasoning results -- e.g., 60.8 on AIME, 94.6 on MATH500, 47.3 on LiveCodeBench -- outperforming existing short-CoT models such as GPT-4o and Claude Sonnet 3.5 by a large margin (up to +550%).