Arcee Trinity Groot Technisch Rapport
Arcee Trinity Large Technical Report
February 19, 2026
Auteurs: Varun Singh, Lucas Krauss, Sami Jaghouar, Matej Sirovatka, Charles Goddard, Fares Obied, Jack Min Ong, Jannik Straube, Fern, Aria Harley, Conner Stewart, Colin Kealty, Maziyar Panahi, Simon Kirsten, Anushka Deshpande, Anneketh Vij, Arthur Bresnu, Pranav Veldurthi, Raghav Ravishankar, Hardik Bishnoi, DatologyAI Team, Arcee AI Team, Prime Intellect Team, Mark McQuade, Johannes Hagemann, Lucas Atkins
cs.AI
Samenvatting
Wij presenteren het technisch rapport voor Arcee Trinity Large, een sparse Mixture-of-Experts-model met in totaal 400B parameters en 13B geactiveerde parameters per token. Daarnaast doen wij verslag over Trinity Nano en Trinity Mini, waarbij Trinity Nano 6B totale parameters heeft met 1B geactiveerd per token, en Trinity Mini 26B totale parameters heeft met 3B geactiveerd per token. De moderne architectuur van de modellen omvat onder meer afwisselende lokale en globale aandacht, 'gated attention', 'depth-scaled sandwich norm' en sigmoïde-routering voor Mixture-of-Experts. Voor Trinity Large introduceren we tevens een nieuwe MoE-belastingsbalanceringsstrategie genaamd Soft-clamped Momentum Expert Bias Updates (SMEBU). Wij trainen de modellen met behulp van de Muon-optimalisator. Alle drie de modellen voltooiden de training zonder verliespieken. Trinity Nano en Trinity Mini werden voorgetraind op 10 biljoen tokens, en Trinity Large werd voorgetraind op 17 biljoen tokens. De modelcheckpoints zijn beschikbaar op https://huggingface.co/arcee-ai.
English
We present the technical report for Arcee Trinity Large, a sparse Mixture-of-Experts model with 400B total parameters and 13B activated per token. Additionally, we report on Trinity Nano and Trinity Mini, with Trinity Nano having 6B total parameters with 1B activated per token, Trinity Mini having 26B total parameters with 3B activated per token. The models' modern architecture includes interleaved local and global attention, gated attention, depth-scaled sandwich norm, and sigmoid routing for Mixture-of-Experts. For Trinity Large, we also introduce a new MoE load balancing strategy titled Soft-clamped Momentum Expert Bias Updates (SMEBU). We train the models using the Muon optimizer. All three models completed training with zero loss spikes. Trinity Nano and Trinity Mini were pre-trained on 10 trillion tokens, and Trinity Large was pre-trained on 17 trillion tokens. The model checkpoints are available at https://huggingface.co/arcee-ai.