ChatPaper.aiChatPaper

INTELLECT-3: Rapporto Tecnico

INTELLECT-3: Technical Report

December 18, 2025
Autori: Prime Intellect Team, Mika Senghaas, Fares Obeid, Sami Jaghouar, William Brown, Jack Min Ong, Daniel Auras, Matej Sirovatka, Jannik Straube, Andrew Baker, Sebastian Müller, Justus Mattern, Manveer Basra, Aiman Ismail, Dominik Scherm, Cooper Miller, Ameen Patel, Simon Kirsten, Mario Sieg, Christian Reetz, Kemal Erdem, Vincent Weisser, Johannes Hagemann
cs.AI

Abstract

Presentiamo INTELLECT-3, un modello Mixture-of-Experts da 106B di parametri (12B attivi) addestrato con tecniche di apprendimento per rinforzo su larga scala sulla nostra infrastruttura end-to-end dedicata all'RL. INTELLECT-3 raggiunge prestazioni allo stato dell'arte per le sue dimensioni su benchmark di matematica, codice, scienza e ragionamento, superando molti modelli all'avanguardia più grandi. Rendiamo open-source il modello insieme all'intero stack infrastrutturale utilizzato per crearlo, inclusi i framework RL, la ricetta completa e un'ampia raccolta di ambienti, sviluppati con la libreria dei verificatori, per l'addestramento e la valutazione dalla nostra piattaforma comunitaria Environments Hub. Creato per questo progetto, introduciamo prime-rl, un framework open per l'apprendimento per rinforzo asincrono su larga scala, che scala in modo fluido da un singolo nodo a migliaia di GPU ed è ottimizzato per RL agentico con supporto di prima classe per interazioni multi-turno e utilizzo di strumenti. Utilizzando questo stack, abbiamo eseguito sia l'addestramento SFT che RL partendo dal modello GLM-4.5-Air-Base, scalando l'addestramento RL fino a 512 GPU H200 con un'elevata efficienza.
English
We present INTELLECT-3, a 106B-parameter Mixture-of-Experts model (12B active) trained with large-scale reinforcement learning on our end-to-end RL infrastructure stack. INTELLECT-3 achieves state of the art performance for its size across math, code, science and reasoning benchmarks, outperforming many larger frontier models. We open-source the model together with the full infrastructure stack used to create it, including RL frameworks, complete recipe, and a wide collection of environments, built with the verifiers library, for training and evaluation from our Environments Hub community platform. Built for this effort, we introduce prime-rl, an open framework for large-scale asynchronous reinforcement learning, which scales seamlessly from a single node to thousands of GPUs, and is tailored for agentic RL with first-class support for multi-turn interactions and tool use. Using this stack, we run both SFT and RL training on top of the GLM-4.5-Air-Base model, scaling RL training up to 512 H200s with high training efficiency.
PDF81December 25, 2025