ChatPaper.aiChatPaper

INTELLECT-3: Technisch Rapport

INTELLECT-3: Technical Report

December 18, 2025
Auteurs: Prime Intellect Team, Mika Senghaas, Fares Obeid, Sami Jaghouar, William Brown, Jack Min Ong, Daniel Auras, Matej Sirovatka, Jannik Straube, Andrew Baker, Sebastian Müller, Justus Mattern, Manveer Basra, Aiman Ismail, Dominik Scherm, Cooper Miller, Ameen Patel, Simon Kirsten, Mario Sieg, Christian Reetz, Kemal Erdem, Vincent Weisser, Johannes Hagemann
cs.AI

Samenvatting

Wij presenteren INTELLECT-3, een Mixture-of-Experts-model met 106B parameters (12B actief) dat is getraind met grootschalige reinforcement learning op onze end-to-end RL-infrastructuurstack. INTELLECT-3 behaalt state-of-the-art prestaties voor zijn grootte op benchmarks voor wiskunde, code, wetenschap en redeneren, en presteert beter dan veel grotere frontier-modellen. Wij maken het model open source, samen met de volledige infrastructuurstack die gebruikt is om het te creëren, inclusief RL-frameworks, het volledige recept en een brede collectie omgevingen, gebouwd met de verifiers-bibliotheek, voor training en evaluatie vanuit ons communityplatform Environments Hub. Speciaal voor deze inspanning introduceren we prime-rl, een open framework voor grootschalige asynchrone reinforcement learning, dat naadloos schaalt van een enkele node naar duizenden GPU's, en dat is toegesneden op agent-gebaseerde RL met first-class ondersteuning voor multi-turn interacties en toolgebruik. Met behulp van deze stack voeren we zowel SFT- als RL-training uit op basis van het GLM-4.5-Air-Base-model, waarbij we de RL-training opschalen tot 512 H200's met een hoge trainsefficiëntie.
English
We present INTELLECT-3, a 106B-parameter Mixture-of-Experts model (12B active) trained with large-scale reinforcement learning on our end-to-end RL infrastructure stack. INTELLECT-3 achieves state of the art performance for its size across math, code, science and reasoning benchmarks, outperforming many larger frontier models. We open-source the model together with the full infrastructure stack used to create it, including RL frameworks, complete recipe, and a wide collection of environments, built with the verifiers library, for training and evaluation from our Environments Hub community platform. Built for this effort, we introduce prime-rl, an open framework for large-scale asynchronous reinforcement learning, which scales seamlessly from a single node to thousands of GPUs, and is tailored for agentic RL with first-class support for multi-turn interactions and tool use. Using this stack, we run both SFT and RL training on top of the GLM-4.5-Air-Base model, scaling RL training up to 512 H200s with high training efficiency.
PDF81December 25, 2025