INTELLECT-3: Relatório Técnico
INTELLECT-3: Technical Report
December 18, 2025
Autores: Prime Intellect Team, Mika Senghaas, Fares Obeid, Sami Jaghouar, William Brown, Jack Min Ong, Daniel Auras, Matej Sirovatka, Jannik Straube, Andrew Baker, Sebastian Müller, Justus Mattern, Manveer Basra, Aiman Ismail, Dominik Scherm, Cooper Miller, Ameen Patel, Simon Kirsten, Mario Sieg, Christian Reetz, Kemal Erdem, Vincent Weisser, Johannes Hagemann
cs.AI
Resumo
Apresentamos o INTELLECT-3, um modelo Mixture-of-Experts com 106B de parâmetros (12B ativos) treinado com aprendizagem por reforço em larga escala na nossa infraestrutura completa de RL. O INTELLECT-3 atinge um desempenho de ponta para o seu tamanho em benchmarks de matemática, código, ciência e raciocínio, superando muitos modelos de fronteira maiores. Disponibilizamos o modelo em código aberto juntamente com a infraestrutura completa usada para criá-lo, incluindo frameworks de RL, a receita completa e uma ampla coleção de ambientes, construídos com a biblioteca de verificadores, para treino e avaliação a partir da nossa plataforma comunitária Environments Hub. Desenvolvido para este projeto, introduzimos o prime-rl, um framework aberto para aprendizagem por reforço assíncrona em larga escala, que escala perfeitamente de um único nó para milhares de GPUs, e é adaptado para RL agentico com suporte nativo para interações multi-turno e uso de ferramentas. Utilizando esta infraestrutura, executamos treino SFT e RL a partir do modelo base GLM-4.5-Air, escalando o treino de RL até 512 H200s com alta eficiência de treino.
English
We present INTELLECT-3, a 106B-parameter Mixture-of-Experts model (12B active) trained with large-scale reinforcement learning on our end-to-end RL infrastructure stack. INTELLECT-3 achieves state of the art performance for its size across math, code, science and reasoning benchmarks, outperforming many larger frontier models. We open-source the model together with the full infrastructure stack used to create it, including RL frameworks, complete recipe, and a wide collection of environments, built with the verifiers library, for training and evaluation from our Environments Hub community platform. Built for this effort, we introduce prime-rl, an open framework for large-scale asynchronous reinforcement learning, which scales seamlessly from a single node to thousands of GPUs, and is tailored for agentic RL with first-class support for multi-turn interactions and tool use. Using this stack, we run both SFT and RL training on top of the GLM-4.5-Air-Base model, scaling RL training up to 512 H200s with high training efficiency.