Magistral

Zusammenfassung

Wir stellen Magistral vor, Mistrals erstes Reasoning-Modell und unsere eigene skalierbare Reinforcement Learning (RL)-Pipeline. Anstatt auf bestehende Implementierungen und RL-Traces zurückzugreifen, die aus früheren Modellen destilliert wurden, verfolgen wir einen Bottom-up-Ansatz und verlassen uns ausschließlich auf unsere eigenen Modelle und Infrastruktur. Insbesondere demonstrieren wir einen Stack, der es uns ermöglichte, die Grenzen des reinen RL-Trainings von LLMs zu erkunden, präsentieren eine einfache Methode, um die Reasoning-Sprache des Modells zu steuern, und zeigen, dass RL auf Textdaten allein die meisten Fähigkeiten des Ausgangs-Checkpoints beibehält. Wir stellen fest, dass RL auf Text das multimodale Verständnis, die Befolgung von Anweisungen und den Funktionsaufruf erhält oder sogar verbessert. Wir präsentieren Magistral Medium, das ausschließlich mit RL auf Basis von Mistral Medium 3 für Reasoning trainiert wurde, und veröffentlichen Magistral Small (Apache 2.0) als Open-Source, das zusätzlich Cold-Start-Daten von Magistral Medium enthält.

English

We introduce Magistral, Mistral's first reasoning model and our own scalable reinforcement learning (RL) pipeline. Instead of relying on existing implementations and RL traces distilled from prior models, we follow a ground up approach, relying solely on our own models and infrastructure. Notably, we demonstrate a stack that enabled us to explore the limits of pure RL training of LLMs, present a simple method to force the reasoning language of the model, and show that RL on text data alone maintains most of the initial checkpoint's capabilities. We find that RL on text maintains or improves multimodal understanding, instruction following and function calling. We present Magistral Medium, trained for reasoning on top of Mistral Medium 3 with RL alone, and we open-source Magistral Small (Apache 2.0) which further includes cold-start data from Magistral Medium.