INTELLECT-3: Relatório Técnico

Resumo

Apresentamos o INTELLECT-3, um modelo Mixture-of-Experts com 106B de parâmetros (12B ativos) treinado com aprendizagem por reforço em larga escala na nossa infraestrutura completa de RL. O INTELLECT-3 atinge um desempenho de ponta para o seu tamanho em benchmarks de matemática, código, ciência e raciocínio, superando muitos modelos de fronteira maiores. Disponibilizamos o modelo em código aberto juntamente com a infraestrutura completa usada para criá-lo, incluindo frameworks de RL, a receita completa e uma ampla coleção de ambientes, construídos com a biblioteca de verificadores, para treino e avaliação a partir da nossa plataforma comunitária Environments Hub. Desenvolvido para este projeto, introduzimos o prime-rl, um framework aberto para aprendizagem por reforço assíncrona em larga escala, que escala perfeitamente de um único nó para milhares de GPUs, e é adaptado para RL agentico com suporte nativo para interações multi-turno e uso de ferramentas. Utilizando esta infraestrutura, executamos treino SFT e RL a partir do modelo base GLM-4.5-Air, escalando o treino de RL até 512 H200s com alta eficiência de treino.

English

We present INTELLECT-3, a 106B-parameter Mixture-of-Experts model (12B active) trained with large-scale reinforcement learning on our end-to-end RL infrastructure stack. INTELLECT-3 achieves state of the art performance for its size across math, code, science and reasoning benchmarks, outperforming many larger frontier models. We open-source the model together with the full infrastructure stack used to create it, including RL frameworks, complete recipe, and a wide collection of environments, built with the verifiers library, for training and evaluation from our Environments Hub community platform. Built for this effort, we introduce prime-rl, an open framework for large-scale asynchronous reinforcement learning, which scales seamlessly from a single node to thousands of GPUs, and is tailored for agentic RL with first-class support for multi-turn interactions and tool use. Using this stack, we run both SFT and RL training on top of the GLM-4.5-Air-Base model, scaling RL training up to 512 H200s with high training efficiency.

INTELLECT-3: Relatório Técnico

INTELLECT-3: Technical Report

Resumo

Support