Magistraal

Samenvatting

We introduceren Magistral, Mistral's eerste redeneermodel en onze eigen schaalbare reinforcement learning (RL) pijplijn. In plaats van te vertrouwen op bestaande implementaties en RL-trajecten die zijn gedistilleerd uit eerdere modellen, volgen we een grond-up aanpak, waarbij we uitsluitend vertrouwen op onze eigen modellen en infrastructuur. Opmerkelijk is dat we een stack demonstreren die het mogelijk maakte om de grenzen van pure RL-training van LLMs te verkennen, een eenvoudige methode presenteren om de redeneertaal van het model te forceren, en aantonen dat RL op tekstdata alleen het merendeel van de capaciteiten van het initiële checkpoint behoudt. We ontdekken dat RL op tekst het multimodale begrip, het volgen van instructies en het aanroepen van functies behoudt of verbetert. We presenteren Magistral Medium, getraind voor redeneren bovenop Mistral Medium 3 met alleen RL, en we open-sourcen Magistral Small (Apache 2.0) dat verder koude-startdata van Magistral Medium omvat.

English

We introduce Magistral, Mistral's first reasoning model and our own scalable reinforcement learning (RL) pipeline. Instead of relying on existing implementations and RL traces distilled from prior models, we follow a ground up approach, relying solely on our own models and infrastructure. Notably, we demonstrate a stack that enabled us to explore the limits of pure RL training of LLMs, present a simple method to force the reasoning language of the model, and show that RL on text data alone maintains most of the initial checkpoint's capabilities. We find that RL on text maintains or improves multimodal understanding, instruction following and function calling. We present Magistral Medium, trained for reasoning on top of Mistral Medium 3 with RL alone, and we open-source Magistral Small (Apache 2.0) which further includes cold-start data from Magistral Medium.