Rapporto Tecnico Dettagliato su Arcee Trinity

Abstract

Presentiamo il rapporto tecnico per Arcee Trinity Large, un modello sparso Mixture-of-Experts con 400 miliardi di parametri totali e 13 miliardi attivati per token. Inoltre, forniamo i dati relativi a Trinity Nano e Trinity Mini: Trinity Nano possiede 6 miliardi di parametri totali con 1 miliardo attivato per token, mentre Trinity Mini ha 26 miliardi di parametri totali con 3 miliardi attivati per token. L'architettura moderna dei modelli include attenzione locale e globale interlacciata, attenzione *gated*, normalizzazione a sandwich scalata in profondità e instradamento sigmoideo per il Mixture-of-Experts. Per Trinity Large, introduciamo inoltre una nuova strategia di bilanciamento del carico per MoE denominata Soft-clamped Momentum Expert Bias Updates (SMEBU). Abbiamo addestrato i modelli utilizzando l'ottimizzatore Muon. Tutti e tre i modelli hanno completato l'addestramento senza picchi di perdita. Trinity Nano e Trinity Mini sono stati pre-addestrati su 10 trilioni di token, mentre Trinity Large è stato pre-addestrato su 17 trilioni di token. I checkpoint del modello sono disponibili all'indirizzo https://huggingface.co/arcee-ai.

English

We present the technical report for Arcee Trinity Large, a sparse Mixture-of-Experts model with 400B total parameters and 13B activated per token. Additionally, we report on Trinity Nano and Trinity Mini, with Trinity Nano having 6B total parameters with 1B activated per token, Trinity Mini having 26B total parameters with 3B activated per token. The models' modern architecture includes interleaved local and global attention, gated attention, depth-scaled sandwich norm, and sigmoid routing for Mixture-of-Experts. For Trinity Large, we also introduce a new MoE load balancing strategy titled Soft-clamped Momentum Expert Bias Updates (SMEBU). We train the models using the Muon optimizer. All three models completed training with zero loss spikes. Trinity Nano and Trinity Mini were pre-trained on 10 trillion tokens, and Trinity Large was pre-trained on 17 trillion tokens. The model checkpoints are available at https://huggingface.co/arcee-ai.

Rapporto Tecnico Dettagliato su Arcee Trinity

Arcee Trinity Large Technical Report

Abstract

Support