ChatPaper.aiChatPaper

INTELLECT-3: Technischer Bericht

INTELLECT-3: Technical Report

December 18, 2025
papers.authors: Prime Intellect Team, Mika Senghaas, Fares Obeid, Sami Jaghouar, William Brown, Jack Min Ong, Daniel Auras, Matej Sirovatka, Jannik Straube, Andrew Baker, Sebastian Müller, Justus Mattern, Manveer Basra, Aiman Ismail, Dominik Scherm, Cooper Miller, Ameen Patel, Simon Kirsten, Mario Sieg, Christian Reetz, Kemal Erdem, Vincent Weisser, Johannes Hagemann
cs.AI

papers.abstract

Wir stellen INTELLECT-3 vor, ein Mixture-of-Experts-Modell mit 106B Parametern (12B aktiv), das mit groß angelegtem Reinforcement Learning auf unserem End-to-End-RL-Infrastruktur-Stack trainiert wurde. INTELLECT-3 erzielt für seine Größe state-of-the-art Leistungen in Benchmarks für Mathematik, Code, Naturwissenschaften und logisches Denken und übertrifft dabei viele größere Frontier-Modelle. Wir veröffentlichen das Modell zusammen mit dem vollständigen, zu seiner Erstellung verwendeten Infrastruktur-Stack als Open Source, einschließlich RL-Frameworks, vollständigem Trainingsrezept und einer umfangreichen Sammlung von Umgebungen aus unserer Community-Plattform Environments Hub, die mit der verifiers-Bibliothek für Training und Evaluation erstellt wurden. Im Zuge dieser Entwicklung führen wir prime-rl ein, ein offenes Framework für groß angelegtes asynchrones Reinforcement Learning, das nahtlos von einem einzelnen Knoten auf Tausende von GPUs skaliert und für agentenbasiertes RL mit First-Class-Unterstützung für mehrstufige Interaktionen und Werkzeugnutzung konzipiert ist. Mit diesem Stack führen wir sowohl SFT- als auch RL-Training auf Basis des GLM-4.5-Air-Base-Modells durch und skalieren das RL-Training auf bis zu 512 H200-GPUs bei hoher Trainingseffizienz.
English
We present INTELLECT-3, a 106B-parameter Mixture-of-Experts model (12B active) trained with large-scale reinforcement learning on our end-to-end RL infrastructure stack. INTELLECT-3 achieves state of the art performance for its size across math, code, science and reasoning benchmarks, outperforming many larger frontier models. We open-source the model together with the full infrastructure stack used to create it, including RL frameworks, complete recipe, and a wide collection of environments, built with the verifiers library, for training and evaluation from our Environments Hub community platform. Built for this effort, we introduce prime-rl, an open framework for large-scale asynchronous reinforcement learning, which scales seamlessly from a single node to thousands of GPUs, and is tailored for agentic RL with first-class support for multi-turn interactions and tool use. Using this stack, we run both SFT and RL training on top of the GLM-4.5-Air-Base model, scaling RL training up to 512 H200s with high training efficiency.
PDF81December 25, 2025